SIGIR: How information retrieval and natural-language processing overcame their rivalry
(SIGIR: 어떻게 정보 검색과 자연어 처리가 그들의 경쟁 관계를 극복했는가?)
Alexa principal scientist Alessandro Moschitti describes the changes that have swept both fields in the 20 years since he first attended the conference.
알렉사의 수석 과학자 알레산드로 모스키티는 그가 처음 회의에 참석한 이후 20년 동안 두 분야를 휩쓴 변화들을 묘사하고 있다.
By Larry Hardesty
SIGIR, the conference of the Association for Computing Machinery’s Interest Group on Information Retrieval, begins next week. Alessandro Moschitti, a principal scientist in the Alexa AI organization, knows the conference well, having attended for the first time in 2001 and served for the past several years on the SIGIR Senior(선임) Committee.
다음 주부터 컴퓨터기계협회 정보검색 이익집단의 컨퍼런스인 SIGIR이 시작된다. 알렉사 AI 조직의 수석 과학자인 알레산드로 모스키티는 2001년 처음 참석해 지난 몇 년간 SIGIR 선임위원회에서 활동한 경험이 있는 등 이번 회의를 잘 알고 있다.
As an autonomous discipline(학문 규율 훈련), Moschitti says, information retrieval (IR) is generally traced to (추적하다)Gerard Salton, a computer science professor at Cornell University who in the 1960s created the first dedicated information retrieval research group. From the outset, Moschitti says, IR was marked by a rivalry with another young discipline, artificial intelligence.
Alessandro Moschitti, principal scientist with Alexa AI
모스치티는 자율적인 학문으로서 정보 검색(IR)은 일반적으로 1960년대 최초의 전용 정보 검색 연구 그룹을 만든 코넬 대학의 컴퓨터 과학 교수 제라드 살튼이 추적하고 있다고 말한다. 모스키티는 처음부터 IR은 또 다른 젊은 훈련인 인공지능과의 경쟁으로 특징지어졌다고 말한다.
알레산드로 모스키티, 알렉사 AI의 수석 과학자
In part, Moschitti says, that may have been because researchers in the two fields were competing for funding. But there was also a fundamental difference in their technical approaches: “IR was more statistical, more quantitative, while AI was pretty much logic-based,” Moschitti says.
모스치티 교수는 그것은 두 분야(IR:information retrieval. AI)의 연구자들이 자금을 마련하기 위해 경쟁하고 있었기 때문일 수도 있다고 말한다. 그러나 Moschitti는 "IR(information retrieval) 은 더 통계적이고, 더 양적인 반면, AI는 상당히 논리적인 기반이었다"고 기술 접근법에도 근본적인 차이가 있었다고 말한다.
Moschitti says that when he began attending SIGIR in 2001, that rivalry was alive and well, although the part played by AI had descended to natural-language processing (NLP), which had emerged from AI as its own discipline.
There was a clear overlap between NLP, which sought to process requests formulated in natural language, and IR, which automatically indexed or ranked search results according to their content. But at that point, NLP still relied principally on rule-based systems, while IR had continued to develop more-effective statistical and probabilistic methods.
모스치티는 2001년 SIGIR에 다니기 시작했을 때 AI가 연기하는 부분은 자체 규율로서 AI로부터 나온 자연어 처리(NLP)로 내려갔지만 그 경쟁은 살아있고 잘 되었다고 말한다.
자연어로 작성된 요청을 처리하려는 NLP와 검색 결과를 내용에 따라 자동으로 인덱싱하거나 순위를 매기는 IR이 겹치는 부분이 뚜렷했다. 그러나 그 시점에서 NLP는 여전히 주로 규칙 기반 시스템에 의존하는 반면 IR은 더욱 효과적인 통계 및 확률론적 방법을 계속 개발해왔다.
“NLP people were saying, ‘We can do semantic analysis and build a semantic search engine,’” Moschitti says, “and the ones from IR were saying, ‘Look, we tried that approach and it performs(기능하다) much worse than our models.’ ‘Then we can do WordNet or semantic nets.’ ‘No, no, it’s better to apply stemming(일어나다) to words.’ ‘Okay, let’s use named-entity recognition or syntactic(문장의) parsing(분석하는것) to extract noun compounds.’ ‘No, we can just measure the distance between words, and this works much better than your named entities, your parsing(분석하다: 어구의 해부).’”
"NLP 사람들은 '우리는 의미 분석을 할 수 있고 의미 검색 엔진을 만들 수 있다'고 말했고,모ㅅ스치티는 말한다 IR의 사람들은 '이것 봐, 우리는 그러한 접근법을 시도했고 그것은 우리 모델보다 훨씬 더 성능이 떨어진다.' '그러면 우리는 워드넷이나 의미망을 할 수 있어.' '아니, 말에서 비롯된 응용을 하는 것이 더 낫지.' '좋아, 사용하자.'명사 화합물을 추출하기 위한 구문 분석' '아니, 우리는 단지 단어 사이의 거리를 측정할 수 있다. 그리고 이것은 당신의 명명된 실체, 당신의 파싱보다 훨씬 더 효과적이다.'
Mending fences(울타리 수선)
The first sign of rapprochement(교감, 회복) between the two disciplines, Moschitti says, came a few years later, when researchers began to make breakthroughs(돌파구 눈부신 발전) in sentiment analysis, or determining a speaker’s attitude toward a topic under discussion. The ability to classify documents — reviews, say — according to their sentiments proved useful to IR researchers.
Moschitti는 두 학문 사이의 화해 (교감, 회복)의 첫 징후는 몇 년 후 연구자들이 감정 분석에서 눈부신 발전을 시작하거나 토론중인 주제에 대한 화자의 태도를 결정하기 시작했을 때 왔다고 모스키티는 말했다. 그들의 감정에 따라 문서 -검토,말-를 분류하는 능력은 IR 연구원들에게 유용한 것으로 판명되었습니다.
“The initial failure of NLP for IR was that document retrieval didn’t really need advanced NLP techniques,” Moschitti explains. “It wasn’t this that changed. What changed is the use of NLP for new applications that were not known at the time.”
그 후, 지난 7, 8년 동안, 깊이 있는 학습 혁명이 일어났다. NLP에게, 그 혁명의 주요 함축은 거의 보편적인 임베딩에 대한 의존이었으며, 이는 벡터 공간에서 단어나 단어의 순서를 점으로 나타낸다. 많은 응용에서, 임베딩 공간에서의 근접성은 훈련 텍스트에서 단어의 다른 단어와 공존하는 것에 기초하여 의미의 유사성을 나타낸다.
Modern information retrieval systems, for instance, no longer simply return links to documents, Moschitti says. Instead, they often return sets of salient facts, extracted from the documents and labeled according to content type, or excerpts from the documents that users are likely to find helpful.
예를 들어, 현대의 정보 검색 시스템은 더 이상 단순히 문서에 대한 링크를 되돌리지 않는다고 Moschitti는 말한다. 대신, 그들은 종종 중요한 사실들을 문서로부터 추출하고 내용 유형에 따라 라벨을 붙이거나 사용자가 유용하다고 알 수 있는 문서로부터 발췌한 것을 반환한다.
“This new kind of output from a search engine — which is at the core of IR — is actually putting together (통합하다)IR and something else,” Moschitti says. “It’s a kind of information composition or information production, and for this you really need NLP techniques — for example, information extraction.”
모스키티는 "IR의 핵심인 검색엔진에서 나온 이 새로운 종류의 결과물은 실제로 IR과 다른 것을 통합하고 있다"고 말했다. "정보 구성이나 정보 생산의 일종인데, 이를 위해서는 NLP 기법, 예를 들어 정보 추출 기술이 꼭 필요하다."
Then, over the past seven or eight years, came the deep-learning revolution. For NLP, a major implication of that revolution has been the near universal reliance on embeddings, which represent words or sequences (순서)of words as points in a vector space. In many applications, proximity(가까움) in the embedding space indicates similarity of meaning, based on words’ co-occurrence(동시발생) with other words in training texts.
그리고 지난 7 ~ 8 년 동안 심오한 학습혁명이 일어났습니다. NLP의 경우, 그 혁명의 주요 함의는 벡터 공간에서 점으로 단어 또는 단어 시퀀스를 나타내는 임베딩에 거의 보편적으로 의존하는 것이 었습니다. 많은 응용 분야에서 임베드 공간의 근접성은 학습 텍스트에서 다른 단어와의 단어의 동시 발생을 기반으로 의미의 유사성을 나타냅니다.
IR, too, has come to rely heavily on embeddings produced by neural networks. But that reliance left most of the existing IR machinery unchanged.
IR 역시 신경망에 의해 생산되는 임베딩에 크게 의존하게 되었다. 그러나 그러한 의존성은 기존의 IR기계의 대부분을 변경하지 않고 남겨두었다.
That’s because IR researchers had depended on vector representations for decades. The work that earned(획득하다) Salton the title “father of information retrieval” was precisely a system for encoding both queries and documents as vectors, based on the relative frequency with which particular terms occurred in individual documents and in large corpora of documents.(corpora는 corpus의 복수 corpus는 전체 회사??)
그것은 IR 연구원들이 수십 년 동안 벡터 표현에 의존해왔기 때문이다. 샐튼에게 "정보 검색의 아버지"라는 칭호를 부여한 작업은 개별 문서와 대형 문서 회사에서 특정 용어가 발생한 상대적 빈도에 근거하여 질의와 문서를 모두 벡터로 인코딩하는 시스템이었다.