Search Engine/IR Papers2008. 6. 24. 16:30
출처: http://irgroup.org/zbxe/4754

강의를 시작하면서 어떤 주제를 어떻게 풀어나갈 것인가가 가장 큰 문제였습니다.
일단 하기로 마음만 먹었지만 이런글을 쓴다는 것 자체가 좀 부담스럽긴 합니다.
해본적도 별로 없고 더군다나 아는것도 없는 주제에.....

일단 시작은 간단하게 하려 합니다.
무엇이든 근본을 알고 시작을 해야 하지 않을까 하는 소견에 검색엔진의 역사를 간단히
소개하는 것으로 시작하려 합니다.

물론 제가 잘 알어서 적는 것은 아니며 여기저기 떠다니는 자료를 종합하고 있는 것입니다.
출처는 메타와이즈의 박민우 사장님께서 2001년 만드신 "Next Generation Search Engines"
라는 자료입니다.
물론... 허락받지 못하였습니다.
언젠가 내려! 하면 내려야 할지도.....

--------------------------------------------------------------------------------------
* 검색엔진의 역사
우리가 많이 사용하고 있는 검색엔진들은 과연 얼마나 오래 된 것들일까? 최근의 폭발적인
인터넷 사용자 증가와 활성화된 많은 검색엔진 제공 사이트들로 인해 이제는 검색엔진이란
단어 자체를 모르는 사람들은 거의 없을 것이다. 그러나 검색엔진 자체의 역사에 대해
관심있게 살펴본 사람은 아마도 관련업계 사람들이나 직접적인 개발자 정도가 아닐까 한다.

요즘 한참 인기가 있는 지식검색들을 유심히 지켜보면 현 시점의 대다수 사용자들이 무엇을
원하고 있는지, 요즘의 추세는 어떤지를 간접적으로나마 파악할 수 가 있다. 이는 대량의
사용자 지식이 축적된 결과로 인한 많은 부산물 중의 하나이다. 지식검색에 대한 얘기를 하려
하는 것은 아니고... ^_^; 이러한 지식검색에서 조차도 검색엔진 자체의 역사에 대한 질문은
찾아보기 힘든다. 대부분 인기있는 검색엔진의 역사정도만을 질문하는 정도이다.
일반 사용자들에게는 사실 이러한 문제가 별로 관심사가 아니기 때문에 이런 현상이 나타
나는 것으로 보여진다. 하지만 검색엔진의 개발자들이라면 한번쯤은 이 부분에 대한 자료를
찾아본 적은 있을 것이다.

각설하고..
의외로 검색엔진의 역사는 상당히 길다고 볼 수 있다. 문헌정보학 적인 측면에서 본다면
컴퓨터가 출현하기 훨씬 이전부터 기본적인 개념들은 있었던 것으로 보여진다. 전산학적인
측면에서 보면 컴퓨터가 출현하면서 바로 정보검색의 역사도 시작했다고 봐도 과언은 아닐
것이다.

정보검색(IR, Information Retrieval!)이란 말은 처음 1945년 Vannervar Bush의 논문에서
처음 제시되었다. 그 후 1950년대 초반 1세대 컴퓨터의 등장 시기에 미국에서 사용되었다.
이 때부터 본격적인 정보검색의 역사가 시작된다고 보면 무리가 없을 것이다.

박민우님께서 정리한 내용에 의하면 정보검색의 역사를 요람기, 유년기, 성년기, 성숙기의
4단계로 구분해 잘 정리해 놓았다. 아쉽게도 현재의 시기에 대한 단계를 설정하지 않은 것이
있긴 하지만..

각 시기별 세부 내용을 살펴보자.

1. 요람기(1945~1955)
정보검색이란 용어가 처음 사용되었다. 이 때를 검색엔진의 태동기라 말할 수 있으며
이 때에 이미 기계번역에 대한 최초의 제안이 제시되었다. 중요한 인물들로는 1949년도의
Warren Weaver, Andrew D.Booth등이 있으며, 이때에 정보검색과 기계번역에 대한 모든
아이디어가 제시되었다. 이러한 이론들은 계속 발전되어가다 60년대에 이르러서 시스템으로
구축되는 계기가 되었다.

2. 유년기(1960년대)
위대한 경험의 시대라고 표현이 되어 있는 것만으로도 이 시대가 상당히 다양한 연구 및
개발이 있었다는 것을 미루어 짐작할 수 있을 것이다. 현재 거론되고 있는 대부분의 검색
모델들이 이 시대에 정립되었다. 또한 대용량 정보검색 시스템의 초기 모델이 제시되었다.
Free-Text Indexing 기법이 보편화 되었으며, 정보검색 시스템의 평가 기준이 완성되었다.
1966년 Cyril Cleverdon은 재현율, 정확율 기준을 마련하였다. 1968년 Gerard Salton은
다국어 검색기법을 제시하였으며, Relevance feedback 등의 신기술 검색기법이 태동되었다.
또한 BRS라는 대용량 정보검색 시스템이 구현되었다.

3. 성년기(1970년대)
전자문서의 시대로 표현될 수 있다. 이 기간에 워드프로세서의 등장으로 인해 처리해야 할
문서의 수와 양이 비약적으로 증가되었다. 하드웨어적으로는 디스크드라이브가 처음 발표
되었으며(당시 1M당 2000달러정도) 이러한 제반 요건들은 대용량 검색시스템들의 상용화를
자연스럽게 이끌게 되었다. 이때 상용화된 검색시스템으로 Dialog, Orbit, BRS등이 있다.
또한 세계 최대 규모의 도서관 네트웍인 OCLC의 등장은 따로 말을 하지 않아도 익히 알고들
있을 것이다. 최기 OCLC는 64개국의 26000개의 도서관 정보를 제공하였다.
이 시기에 데이타데이타베이스 시스템이 처음 등장하였으며, 이러한 제품들은 계층모델과
네트웍 모델을 기반으로 하였었다. 후에 이러한 데이타베이스들은 관계형, 개체형등으로
발전을 거듭하게 된다.

데이타베이스와 검색엔진의 차이는 다음과 같이 요약할 수 있다.

데이타베이스 : Data 관점, 관리중심, 결정구조, SQL->MIS로 발전
검색엔진 : Information 관점, 검색 중심, 비정형 구조, 자유검색

초기의 정보검색은 인공지능의 한 분야로 인식되어져 오다가 이 시기에 인공지능 분야에서
분리되었다. 이시기에 AI에 대한 무용론이 대두되고 IR분야는 고속성장을 맞게 된다. 그러나
최근에는 다시 AI와 IR이 접목을 시도하는 경향이 있다. 그리고 단어(워드)에 대한 처리방식
접근이 보편화 되었다.

4. 성숙기(1980년대)
본격적인 전문 검색엔진이 등장하였다. 당시 시대적 상황으로는 컴퓨터의 성능이 비약적으로
향상되었으며, 저렴한 가격대, CD-ROM의 등장등으로 하드웨어적인 요건이 대폭 향상되었으며
원문 검색에 대한 사용자의 요구가 점점 증대하게 되었다. 이러한 상황에서 전문 검색엔진의
등장은 당연한 결과이며, 도서관 위주의 검색 기술이 지속적으로 발달하였다.

5. 그후(1990년대~현재)
시대적인 구분으로는 1945~1989년까지를 구분해 보았다. IT 기술적인 구분으로는 www의 출현
전과 후(1990년 초반)로 구분하기도 한다. WWW의 출현은 정보검색 측면에서는 새로운 시대를
여는 계기가 되었으며 이로 인해 정보검색 시스템들이 일반 사용자들에 아주 쉽고 빠르게
접근할 수 있게 되었다.
이 시대에 현재 사용하고 있는 대부분의 상용 검색엔진들이 출현하였으며 WWW를 통한 거대
검색포탈들이 속속 생겨나게 되었다.

이상으로 간략하게 검색엔진의 역사를 살펴 보았다. 90년대 이후부터 현재까지의 기간에 대한
보다 자세한 설명이 있어야 하겠지만 지식의 한계로 인하여(참고자료의 부재 --; 누군가 베낄데가
없냐는 핀잔을... --;) 이정도로 가름하겠다.



Posted by BAGE