나의 이야기

SIGIR: How information retrieval and natural-language processing overcame their rivalry(SIGIR: 어떻게 정보 검색과 자연어 처리가 그들의 경쟁 관계를 극복했는가?)

효성공인 2020. 7. 31. 23:05

SIGIR: How information retrieval and natural-language processing overcame their rivalry

(SIGIR: 어떻게 정보 검색과 자연어 처리가 그들의 경쟁 관계를 극복했는가?)

Alexa principal scientist Alessandro Moschitti describes the changes that have swept both fields in the 20 years since he first attended the conference.

알렉사의 수석 과학자 알레산드로 모스키티는 그가 처음 회의에 참석한 이후 20년 동안 두 분야를 휩쓴 변화들을 묘사하고 있다.

By Larry Hardesty

  •  

SIGIR, the conference of the Association for Computing Machinery’s Interest Group on Information Retrieval, begins next week. Alessandro Moschitti, a principal scientist in the Alexa AI organization, knows the conference well, having attended for the first time in 2001 and served for the past several years on the SIGIR Senior(선임) Committee.

다음 주부터 컴퓨터기계협회 정보검색 이익집단의 컨퍼런스인 SIGIR이 시작된다. 알렉사 AI 조직의 수석 과학자인 알레산드로 모스키티는 2001년 처음 참석해 지난 몇 년간 SIGIR 선임위원회에서 활동한 경험이 있는 등 이번 회의를 잘 알고 있다.

As an autonomous discipline(학문 규율 훈련), Moschitti says, information retrieval (IR) is generally traced to (추적하다)Gerard Salton, a computer science professor at Cornell University who in the 1960s created the first dedicated information retrieval research group. From the outset, Moschitti says, IR was marked by a rivalry with another young discipline, artificial intelligence.

Alessandro Moschitti, principal scientist with Alexa AI

모스치티는 자율적인 학문으로서 정보 검색(IR)은 일반적으로 1960년대 최초의 전용 정보 검색 연구 그룹을 만든 코넬 대학의 컴퓨터 과학 교수 제라드 살튼이 추적하고 있다고 말한다. 모스키티는 처음부터 IR은 또 다른 젊은 훈련인 인공지능과의 경쟁으로 특징지어졌다고 말한다.

알레산드로 모스키티, 알렉사 AI의 수석 과학자

 

In part, Moschitti says, that may have been because researchers in the two fields were competing for funding. But there was also a fundamental difference in their technical approaches: “IR was more statistical, more quantitative, while AI was pretty much logic-based,” Moschitti says.

모스치티 교수는 그것은 두 분야(IR:information retrieval. AI)의 연구자들이 자금을 마련하기 위해 경쟁하고 있었기 때문일 수도 있다고 말한다. 그러나 Moschitti는 "IR(information retrieval) 은 더 통계적이고, 더 양적인 반면, AI는 상당히 논리적인 기반이었다"고 기술 접근법에도 근본적인 차이가 있었다고 말한다.

 

Moschitti says that when he began attending SIGIR in 2001, that rivalry was alive and well, although the part played by AI had descended to natural-language processing (NLP), which had emerged from AI as its own discipline.

There was a clear overlap between NLP, which sought to process requests formulated in natural language, and IR, which automatically indexed or ranked search results according to their content. But at that point, NLP still relied principally on rule-based systems, while IR had continued to develop more-effective statistical and probabilistic methods.

모스치티는 2001년 SIGIR에 다니기 시작했을 때 AI가 연기하는 부분은 자체 규율로서 AI로부터 나온 자연어 처리(NLP)로 내려갔지만 그 경쟁은 살아있고 잘 되었다고 말한다.

자연어로 작성된 요청을 처리하려는 NLP와 검색 결과를 내용에 따라 자동으로 인덱싱하거나 순위를 매기는 IR이 겹치는 부분이 뚜렷했다. 그러나 그 시점에서 NLP는 여전히 주로 규칙 기반 시스템에 의존하는 반면 IR은 더욱 효과적인 통계 및 확률론적 방법을 계속 개발해왔다.

 

“NLP people were saying, ‘We can do semantic analysis and build a semantic search engine,’” Moschitti says, “and the ones from IR were saying, ‘Look, we tried that approach and it performs(기능하다) much worse than our models.’ ‘Then we can do WordNet or semantic nets.’ ‘No, no, it’s better to apply stemming(일어나다) to words.’ ‘Okay, let’s use named-entity recognition or syntactic(문장의) parsing(분석하는것) to extract noun compounds.’ ‘No, we can just measure the distance between words, and this works much better than your named entities, your parsing(분석하다: 어구의 해부).’”

"NLP 사람들은 '우리는 의미 분석을 할 수 있고 의미 검색 엔진을 만들 수 있다'고 말했고,모ㅅ스치티는 말한다  IR의 사람들은 '이것 봐, 우리는 그러한 접근법을 시도했고 그것은 우리 모델보다 훨씬 더 성능이 떨어진다.' '그러면 우리는 워드넷이나 의미망을 할 수 있어.' '아니, 말에서 비롯된 응용을 하는 것이 더 낫지.' '좋아, 사용하자.'명사 화합물을 추출하기 위한 구문 분석' '아니, 우리는 단지 단어 사이의 거리를 측정할 수 있다. 그리고 이것은 당신의 명명된 실체, 당신의 파싱보다 훨씬 더 효과적이다.'

 

Mending fences(울타리 수선)

 

The first sign of rapprochement(교감, 회복) between the two disciplines, Moschitti says, came a few years later, when researchers began to make breakthroughs(돌파구 눈부신 발전) in sentiment analysis, or determining a speaker’s attitude toward a topic under discussion. The ability to classify documents — reviews, say — according to their sentiments proved useful to IR researchers.

Moschitti는 두 학문 사이의 화해 (교감, 회복)의 첫 징후는 몇 년 후 연구자들이 감정 분석에서 눈부신 발전을 시작하거나 토론중인 주제에 대한 화자의 태도를 결정하기 시작했을 때 왔다고 모스키티는 말했다. 그들의 감정에 따라 문서 -검토,말-를 분류하는 능력은 IR 연구원들에게 유용한 것으로 판명되었습니다.

“The initial failure of NLP for IR was that document retrieval didn’t really need advanced NLP techniques,” Moschitti explains. “It wasn’t this that changed. What changed is the use of NLP for new applications that were not known at the time.”

그 후, 지난 7, 8년 동안, 깊이 있는 학습 혁명이 일어났다. NLP에게, 그 혁명의 주요 함축은 거의 보편적인 임베딩에 대한 의존이었으며, 이는 벡터 공간에서 단어나 단어의 순서를 점으로 나타낸다. 많은 응용에서, 임베딩 공간에서의 근접성은 훈련 텍스트에서 단어의 다른 단어와 공존하는 것에 기초하여 의미의 유사성을 나타낸다.

Modern information retrieval systems, for instance, no longer simply return links to documents, Moschitti says. Instead, they often return sets of salient facts, extracted from the documents and labeled according to content type, or excerpts from the documents that users are likely to find helpful.

예를 들어, 현대의 정보 검색 시스템은 더 이상 단순히 문서에 대한 링크를 되돌리지 않는다고 Moschitti는 말한다. 대신, 그들은 종종 중요한 사실들을 문서로부터 추출하고 내용 유형에 따라 라벨을 붙이거나 사용자가 유용하다고 알 수 있는 문서로부터 발췌한 것을 반환한다.

“This new kind of output from a search engine — which is at the core of IR — is actually putting together (통합하다)IR and something else,” Moschitti says. “It’s a kind of information composition or information production, and for this you really need NLP techniques — for example, information extraction.”

모스키티는 "IR의 핵심인 검색엔진에서 나온 이 새로운 종류의 결과물은 실제로 IR과 다른 것을 통합하고 있다"고 말했다. "정보 구성이나 정보 생산의 일종인데, 이를 위해서는 NLP 기법, 예를 들어 정보 추출 기술이 꼭 필요하다."

Then, over the past seven or eight years, came the deep-learning revolution. For NLP, a major implication of that revolution has been the near universal reliance on embeddings, which represent words or sequences (순서)of words as points in a vector space. In many applications, proximity(가까움) in the embedding space indicates similarity of meaning, based on words’ co-occurrence(동시발생) with other words in training texts.

그리고 지난 7 ~ 8 년 동안 심오한 학습혁명이 일어났습니다. NLP의 경우, 그 혁명의 주요 함의는 벡터 공간에서 점으로 단어 또는 단어 시퀀스를 나타내는 임베딩에 거의 보편적으로 의존하는 것이 었습니다. 많은 응용 분야에서 임베드 공간의 근접성은 학습 텍스트에서 다른 단어와의 단어의 동시 발생을 기반으로 의미의 유사성을 나타냅니다.

IR, too, has come to rely heavily on embeddings produced by neural networks. But that reliance left most of the existing IR machinery unchanged.

IR 역시 신경망에 의해 생산되는 임베딩에 크게 의존하게 되었다. 그러나 그러한 의존성은 기존의 IR기계의 대부분을 변경하지 않고 남겨두었다.

That’s because IR researchers had depended on vector representations for decades. The work that earned(획득하다) Salton the title “father of information retrieval” was precisely a system for encoding both queries and documents as vectors, based on the relative frequency with which particular terms occurred in individual documents and in large corpora of documents.(corpora는 corpus의 복수 corpus는 전체 회사??)

그것은 IR 연구원들이 수십 년 동안 벡터 표현에 의존해왔기 때문이다. 샐튼에게 "정보 검색의 아버지"라는 칭호를 부여한 작업은 개별 문서와 대형 문서 회사에서 특정 용어가 발생한 상대적 빈도에 근거하여 질의와 문서를 모두 벡터로 인코딩하는 시스템이었다.

Historically, natural-language-processing researchers focused on semantic retrieval (top), which sought to match the semantic structure of queries to semantic relationships encoded(암호화 하다) in a knowledge base, while information retrieval researchers focused on vector space models (bottom), which represented search terms as points in a vector space. On the vector space model, the angle between two vectors represented the semantic similarity between the associated terms.

역사적으로 자연어 처리 연구자들은 질의의 의미 구조를 지식 기반에서 인코딩된 의미적 관계(암호화하 하다)에 일치시키려 했던 의미적 검색(top)에 초점을 맞추었고, 정보 검색 연구자들은 벡터 공간의 점으로 검색 용어를 나타내는 벡터 공간 모델(하단)에 초점을 맞췄다. 벡터 공간 모델에서, 두 벡터 사이의 각도는 관련 항들 사이의 의미 유사성을 나타낸다.

 

Credit: Stacy Reilly(신용: 스테이시 라일리)

 

“This is what IR people have been doing since the beginning,” Moschitti says. “Their main approaches are based on vectors. So the neural world wasn’t so closed to the IR community. They could more quickly appreciate embedding, vector representations of text. For them it was completely fine.”

모스치티는 "이것이 IR 사람들이 처음부터 해온 일"이라고 말한다. "그들의 주요 접근법은 벡터에 기초한다. 그래서 신경계는 IR 커뮤니티에 그렇게 가까이 있지 않았다. 그들은 텍스트의 내장, 벡터 표현을 더 빨리 감상할 수 있었다. 그들에게는 완전히 괜찮았다."

“Now NLP and IR are even closer because they used the same tools,” Moschitti adds. “If you go to an IR conference, 90 percent of what you find regarding text will overlap with papers you can find at ACL [the annual meeting of the Association for Computational Linguistics].”

모스키티는 "이제 NLP와 IR은 같은 도구를 사용했기 때문에 더욱 가까워졌다"고 덧붙였다. "IR 콘퍼런스에 가면, 텍스트와 관련하여 발견한 내용의 90%가 ACL[전산언어학협회 연례회의]에서 찾을 수 있는 논문과 중복된다."

As a case in point,(좋은 예로서 ) Moschitti points out that one of his own papers at this year’s SIGIR is a follow-up(속편) on work he reported earlier this year, at the annual meeting of the Association for the Advancement of Artificial Intelligence (AAAI).

모스치티는 대표적인 사례로 올해 초 인공지능 선진화협회(AAAI) 연차총회에서 자신이 보고한 업무와 관련해 올해 SIGIR의 자기 논문 중 하나가 후속편이라고 지적한다.

The AAAI paper describes a question-answering system that halved the error rate on a benchmark data set, but it required a computationally expensive neural network called the Transformer. In the SIGIR paper, Moschitti and his colleagues describe how to use a faster neural network to produce a short list of candidate answers to a question, which dramatically reduces the computational burden on the Transformer.

AAAI 논문은 기준 데이터 집합의 오류율을 절반으로 줄인 질문-반복 시스템을 설명하지만, 그것은 계산적으로 비싼 신경망인 '변압기'를 필요로 했다. Moschitti와 그의 동료들은 SIGIR 논문에서 더 빠른 신경 네트워크를 사용하여 질문에 대한 후보 답의 짧은 목록을 작성하는 방법을 설명하고 있는데, 이것은 Transformer의 계산 부담을 극적으로 줄여준다.

Between AAAI and SIGIR, however, at ACL, Moschitti and Luca Soldaini, an applied scientist on his team at Amazon, presented a more general version(판) of this system, which uses a stack(덩어리) of question-answering models, arranged in a hierarchy(계층 단계) inside the Transformer(변신) itself. The system, which they call the Cascade (작은 폭포. 종속접속>직렬접속)Transformer, applies a sequence of models of increasing complexity and accuracy to candidate answers to a question. Adjusting the number of candidates flowing from each model to the next enables the system to trade off (팔아버리다)speed and accuracy.

그러나 AAAI와 SIGIR 사이, ACL에서는 모스키티와 아마존의 그의 팀의 응용 과학자 루카 솔다이니가 트랜스포머 자체 내부의 계층 구조로 배열된 질문-탐색 모델을 사용하는 이 시스템의 보다 일반적인 버전을 제시했다. 그들이 캐스케이드 트랜스포머라고 부르는 이 시스템은 질문에 대한 후보자 답변에 복잡성과 정확성이 증가하는 일련의 모델을 적용한다. 각 모델에서 다음 모델로 흐르는 후보 수를 조정하면 시스템이 속도와 정확성을 바꿀 수 있다.

That’s a single line of research that spawned(알을 낳다) papers at three different conferences: one on AI, one on computational linguistics(언어), and one on information retrieval.

그것은 AI에 관한 것, 컴퓨터 언어학에 관한 것, 정보 검색에 관한 것 등 세 개의 다른 회의에서 논문을 만들어 낸 하나의 연구 라인이다.

“Now the fields are very, very similar,” Moschitti says.

모스키티는 "이제 분야는 매우 매우 비슷해졌다"고 말했다