http://www.thirdtype.net/491
3가지 검색 기반 기술 - 데이터베이스, 자연어 처리, 인공 지능
검색엔진의 기반 기술은 ‘응용 성격’이 강하며 데이터베이스, 자연어 처리, 인공 지능 등 크게 3가지 관점에서 구분해 볼 수 있다.
첫번째는 데이터베이스에 기반을 둔 검색엔진 기술이다. 이는 DBMS에 적용되는 기술로 초기 검색엔진 기술은 비정형화된 데이터(텍스트)를 DBMS에서 색인 및 추출하도록 한 것에서 시작된다. 즉, 초창기 검색엔진은 DBMS와 크게 다를 게 없으며, 이 당시 국내 대표적인 검색엔진인 까치네는 물론, 이준호 교수가 개발한 네이버 역시 데이터베이스를 기반 기술로 하는 검색엔진이다.
이러한 국내 검색엔진들은 DBMS에서 전문 검색(Full Text Retrieval) 문제를 해결하기 위해 '엔그램(N-GRAM)'이라는 색인 방식을 사용했다. 국내의 경우 초기에는 검색할 문서수가 많지 않아 두 글자를 패턴으로 하는 바이그램(Bi-GRAM)을 주로 사용했다. 예를 들어 검색어로 ‘인천국제공항’을 입력하면 ‘인천’, ‘천국’, ‘국제’, ‘제공’, ‘공항’ 등 두 글자로 된 모든 문장을 찾는 방식이다.
엔그램 방식이 처음 나왔을 때는 그동안 한국어 검색에서 문제가 됐던 조사나 띄어쓰기 문제를 해결해 주는 강력한 기능을 발휘했으나, 문서의 양이 많아지면서 불필요하게 많은 검색 결과를 보여준다는 단점이 드러났다. 지금 생각해 보면 원시적이며 무식한 방식이지만, 검색 재현율(recall)이 좋다는 장점은 무시할 수 없다.
두번째는 자연어 처리에 기반을 둔 기술이다. 여기서는 형태소 분석기를 사용함으로써 데이터베이스에 기반 기술을 둔 검색엔진이 갖는 과도한 검색의 문제를 해결할 수 있었다. 다시 ‘인천국제공항’의 예를 들면, ‘인천’, ‘국제’, ‘공항’이란 단어만 있으면 관련 정보를 찾아주게 된 것이다. 기존의 재현율보다는 정확율(precision)에 초점을 맞춘 것이다.
마지막은 인공 지능에 기반을 둔 기술이다. 현재까지 검색엔진 기술 분야의 가장 최근 기술로 ‘적합도 랭킹’을 내세웠다. 검색 결과 10만 건이 넘는 문서가 나왔어도 실제로 사용자들이 보는 문서는 10~20건 정도에 그친다. 때문에 사용자들에게 적합한 문서를 찾아주는 데 주력했고, 인공 지능 기술을 이용해 도큐먼트와 사용자 쿼리 간 유사도와 적합도를 계산해서 더욱 정확한 결과를 상위에 랭크시켜주는 기술이다.
서비스를 제외한 검색 기술만을 가지고 검색 기능을 따지려면 이 3가지 기술이 잘 조화돼 있는지를 보면 된다. 재현율과 정확율, 그리고 적합성은 오늘날 검색엔진들이 갖춰야 할 기본 조건이다.
데이터베이스, 자연어 처리는 살고 인공 지능은 죽다
국내 검색의 역사는 지난 1995년 전후로 태동기를 맞는다. 초기 웹 검색은 코시크, 까치네, 미스다찾니 등 대학파와 심마니(한컴), 정보탐정(KT) 등 기업형으로 출발했다. 앞서 언급했듯이 초기의 웹 검색은 엔그램 방식과 웹로봇을 통해 100만 건 이하의 소량의 문서를 바탕으로 이루어졌다.
1997년 야후의 국내 진출로 디렉토리 검색이 등장했다. 이 때 국내의 사이트 수는 5천여 개였으며, 디렉토리 검색은 초기 문서수가 적고 검색 기술력이 빈약했을 때 사람의 노동력을 써서 문서와 키워드를 카테고리별로 찾기 위한 것이었다. 자동 인덱스 방식이 아닌 수동 검색 방식이기 때문에 기술적으로 뛰어난 것은 아니다. 초기 국내 검색 시장에서는 데이터베이스 기반 기술인 엔그램 방식과 수동 방식을 모두 사용했다.
이어 라이코스와 다음이 약진하면서 포털화가 시작됐으며, 1998년에는 야후와 토종 검색 엔진 네이버가 양대 산맥을 이루었다. 1998년 말 후발 업체인 엠파스가 ‘자연어 검색’을 표방하면서 신선한 충격을 일으켰다. 기존 단어만으로 문서를 찾는 것이 아니라 문장을 가지고도 정보를 찾을 수 있게 됐는데, 문장으로 검색을 하려면 형태소 분석이 필요한 자연어 처리 기반 기술이 필요했다. 이 때 그 유명한 ‘야후에서 못 찾으면 엠파스…’라는 광고문구가 등장했다.
2000년 이후, 국내 검색 시장은 성장기를 맞는다. 뉴스 연동, 통합 검색과 더불어 네이버의 지식 검색 서비스 ‘지식인’이 등장하며 검색의 진화가 이루어졌다. 네이버 성장의 한 축을 담당한 지식 검색은 인공 지능(AI) 기반 기술에서 잉태됐다. 그렇지만 엄밀히 말해 AI 기술이 적용되지는 못했다. 당시로서는 그 정도의 기술력을 확보하기가 어려웠고, 네이버는 인공 지능 기술을 버리고 과감하게 그 개념만을 도입한 지식인 서비스를 택했다(비슷한 지식 검색으로 디비딕이 먼저 나왔으나 여기서는 생략하겠다).
인공 지능의 개념만을 도입해서 시스템이 아닌 사용자가 답변을 달아주는 방식의 지식인 서비스는 사용자의 욕구를 충족시켜 줬으며, 네이버의 선택은 성공했다. 그렇지만 지식인의 대성공은 결과적으로 국내 검색 시장에서 AI 기반 기술을 퇴화시키는 데에도 한 몫을 했다.
또한 네이버 고성장의 다른 한 축, 통합 검색은 데이터베이스의 확장으로 인해 사용자 서비스 측면 강화 차원에서 각종 서비스들을 한눈에 볼 수 있도록 만든 것이다. 이는 웹로봇의 발달과 더불어 DB 확장이 있었기에 가능한 서비스다.
고성장 시기의 검색 시장, 기술 발전은 글쎄...
2002년 이후 국내 검색 시장은 매출이 급격히 증가하면서 네이버와 다음이 견실한 캐시카우(Cash-cow)를 형성하기 시작한다. 확실한 선두 그룹이 정해지기 시작하면서 업체 간 경쟁도 심화됐다. 이미 시장은 성숙했고 검색 서비스 특성상 스위칭 코스트(전환 비용)가 발생하지 않으므로, 서비스만 뛰어나다면 언제든지 선두 자리에 설 수 있기 때문이다.
이 틈을 뚫고 지난해 등장한 엠파스의 열린 검색은 업체 간 경쟁의 단면을 보여주는 일례다. 타 검색엔진의 블로그나 게시판 문서를 가져와서 보여주는 것에 대해서 업계에서는 도덕적으로 부당하다는 입장과 공정한 서비스의 한 형태라는 입장이 공존한다.
논란은 지금도 계속되고 있지만 검색 기술 측면에서는 반길 만한 일이다. 엠파스의 열린 검색은 타 검색엔진의 데이터를 웹크롤링(웹로봇으로 문서를 찾아오는 것)해서, 이 정보를 자사의 검색 기술로 색인해 사용자에게 보여주고 있다. 서비스 측면이 아닌 검색 기술로 승부를 건 것이다.
코난테크놀로지의 한 관계자는 “엠파스의 열린 검색은 흔히들 말하는 메타 검색과 다른 면이 있다. 그 기준은 자체 색인 DB 존재 여부에 따라 색인 DB가 존재하면 열린 검색이고, 그렇지 않으면 메타 검색이라고 본다”며 “엠파스가 타사의 DB를 자체 검색엔진에서 색인했기 때문에 문제가 될 수는 있으나, 쟁점의 중앙에 기술 이슈가 등장한 것은 나쁘지 않다”고 말했다.
검색 기술은 ‘스스로 진화한다’
지난해부터는 멀티미디어와 데스크톱 검색 등의 서비스가 등장해 올해는 업체 간 더욱 치열한 서비스 경쟁이 예상된다.
최근 PC 사양이 좋아지고 각 개인의 컴퓨터에 메일, 오피스 프로그램 등 각종 자료가 넘쳐나자 문서 필터링을 위해 데스크톱 검색 서비스가 등장한 것이다. 데스크톱 검색 기술의 핵심은 ‘경량화’ 기술로, 무거운 검색엔진을 자원 활용에 대한 튜닝을 통해 PC에서 돌아가게끔 하는 기술이 적용됐다. 이 기술은 사용자들이 PC상에서 작업하는 데 불편함이 없도록 하기 위해 리소스에 지장을 초래해서는 안 되며, 이를 만족시키기 위해 아웃룩 등의 프로그램과의 연동 같은 다양한 기술이 추가 개발되고 있다. 또한 추후 데스크톱이 KMS(지식관리시스템)와도 연동될 가능성을 열어주고 있다.
멀티미디어 검색은 메타데이터 검색과 내용 기반 검색의 두 가지로 나뉜다. 전자는 디스크립션 검색으로 동영상이나 이미지에 표시된 텍스트 검색 수준이고, 후자는 실제로 이미지를 분석해 그 내용으로 색인을 하는 기술이다. 물론 후자가 진정한 멀티미디어 검색이라고 할 수 있지만, 현재 포털에서 제공하는 멀티미디어 검색은 아직 전자에 가깝다. 오디오는 음파를 분석하고, 이미지는 이미지 디스크립터를 검색하는 ‘특징 추출’ 기술을 사용하는데 이는 자연어 처리 기반 기술이라 할 수 있다.
최근 첫눈이 자체 개발한 검색 기술 ‘스노우랭크’는 인공 지능 기반 기술의 적합도 랭킹에 가까운 기술이다. ‘중복된 정보가 가치가 있다’는 명제 하에서 빈도수가 잦은 정보를 상위에 랭크해 주고 있다. 얼마나 많은 사람이 봤는지 클릭 수에 따른 엠파스의 유저 랭크나 문서 고유의 가중치를 두는 구글의 방식도 이와 유사하다.
이러한 면에서 인공 지능 기반 기술에서 강조된 랭킹 기술이 다시 부각될 것으로 보인다. 지금까지 형성된 엄청난 분량의 이미지, 문서, 기사 등의 DB를 시스템적으로 재정렬하고 가장 적합한 검색 결과를 상위에 랭크시켜야 하기 때문이다.
검색 서비스와 기술은 시대의 변화에 따라서 스스로 진화한다. 결국은 가장 편리하고 효율적인 서비스를 제공하는 검색엔진 기술과 서비스가 살아남을 것이다