SIGIR: How information retrieval and natural-language processing overcame their rivalry
(SIGIR: 어떻게 정보 검색과 자연어 처리가 그들의 경쟁 관계를 극복했는가?)
Alexa principal scientist Alessandro Moschitti describes the changes that have swept both fields in the 20 years since he first attended the conference.
알렉사의 수석 과학자 알레산드로 모스키티는 그가 처음 회의에 참석한 이후 20년 동안 두 분야를 휩쓴 변화들을 묘사하고 있다.
By Larry Hardesty
SIGIR, the conference of the Association for Computing Machinery’s Interest Group on Information Retrieval, begins next week. Alessandro Moschitti, a principal scientist in the Alexa AI organization, knows the conference well, having attended for the first time in 2001 and served for the past several years on the SIGIR Senior(선임) Committee.
다음 주부터 컴퓨터기계협회 정보검색 이익집단의 컨퍼런스인 SIGIR이 시작된다. 알렉사 AI 조직의 수석 과학자인 알레산드로 모스키티는 2001년 처음 참석해 지난 몇 년간 SIGIR 선임위원회에서 활동한 경험이 있는 등 이번 회의를 잘 알고 있다.
As an autonomous discipline(학문 규율 훈련), Moschitti says, information retrieval (IR) is generally traced to (추적하다)Gerard Salton, a computer science professor at Cornell University who in the 1960s created the first dedicated information retrieval research group. From the outset, Moschitti says, IR was marked by a rivalry with another young discipline, artificial intelligence.
Alessandro Moschitti, principal scientist with Alexa AI
모스치티는 자율적인 학문으로서 정보 검색(IR)은 일반적으로 1960년대 최초의 전용 정보 검색 연구 그룹을 만든 코넬 대학의 컴퓨터 과학 교수 제라드 살튼이 추적하고 있다고 말한다. 모스키티는 처음부터 IR은 또 다른 젊은 훈련인 인공지능과의 경쟁으로 특징지어졌다고 말한다.
알레산드로 모스키티, 알렉사 AI의 수석 과학자
In part, Moschitti says, that may have been because researchers in the two fields were competing for funding. But there was also a fundamental difference in their technical approaches: “IR was more statistical, more quantitative, while AI was pretty much logic-based,” Moschitti says.
모스치티 교수는 그것은 두 분야(IR:information retrieval. AI)의 연구자들이 자금을 마련하기 위해 경쟁하고 있었기 때문일 수도 있다고 말한다. 그러나 Moschitti는 "IR(information retrieval) 은 더 통계적이고, 더 양적인 반면, AI는 상당히 논리적인 기반이었다"고 기술 접근법에도 근본적인 차이가 있었다고 말한다.
Moschitti says that when he began attending SIGIR in 2001, that rivalry was alive and well, although the part played by AI had descended to natural-language processing (NLP), which had emerged from AI as its own discipline.
There was a clear overlap between NLP, which sought to process requests formulated in natural language, and IR, which automatically indexed or ranked search results according to their content. But at that point, NLP still relied principally on rule-based systems, while IR had continued to develop more-effective statistical and probabilistic methods.
모스치티는 2001년 SIGIR에 다니기 시작했을 때 AI가 연기하는 부분은 자체 규율로서 AI로부터 나온 자연어 처리(NLP)로 내려갔지만 그 경쟁은 살아있고 잘 되었다고 말한다.
자연어로 작성된 요청을 처리하려는 NLP와 검색 결과를 내용에 따라 자동으로 인덱싱하거나 순위를 매기는 IR이 겹치는 부분이 뚜렷했다. 그러나 그 시점에서 NLP는 여전히 주로 규칙 기반 시스템에 의존하는 반면 IR은 더욱 효과적인 통계 및 확률론적 방법을 계속 개발해왔다.
“NLP people were saying, ‘We can do semantic analysis and build a semantic search engine,’” Moschitti says, “and the ones from IR were saying, ‘Look, we tried that approach and it performs(기능하다) much worse than our models.’ ‘Then we can do WordNet or semantic nets.’ ‘No, no, it’s better to apply stemming(일어나다) to words.’ ‘Okay, let’s use named-entity recognition or syntactic(문장의) parsing(분석하는것) to extract noun compounds.’ ‘No, we can just measure the distance between words, and this works much better than your named entities, your parsing(분석하다: 어구의 해부).’”
"NLP 사람들은 '우리는 의미 분석을 할 수 있고 의미 검색 엔진을 만들 수 있다'고 말했고,모ㅅ스치티는 말한다 IR의 사람들은 '이것 봐, 우리는 그러한 접근법을 시도했고 그것은 우리 모델보다 훨씬 더 성능이 떨어진다.' '그러면 우리는 워드넷이나 의미망을 할 수 있어.' '아니, 말에서 비롯된 응용을 하는 것이 더 낫지.' '좋아, 사용하자.'명사 화합물을 추출하기 위한 구문 분석' '아니, 우리는 단지 단어 사이의 거리를 측정할 수 있다. 그리고 이것은 당신의 명명된 실체, 당신의 파싱보다 훨씬 더 효과적이다.'
Mending fences(울타리 수선)