Search Engine/IR Papers2008. 3. 26. 16:03
출처:http://terrie.tistory.com/53


어제 (27일) 오후 2시 분당의 금융결제원 2층에서 시맨틱스코리아의미검색엔진
KOINEN
의 시연회가 있어서 사전에 신청하고 참가했습니다.
사용자 삽입 이미지

시연회가 열린 금융결제원 분당센터

여담이지만 금융결제원 보안이 살벌하더라구요. 건물 사진도 못찍게 하더군요. -_-;
아무튼 시맨틱 웹을 활용한 검색엔진의 첫선이라고 해서 많은 기대를 갖고 참석했습니다.
대략 참여인원은 20~30명으로 관심도는 낮았습니다. 대부분 시맨틱코리아 관계자분들과 ETRI와 KISTI분들외 몇몇 학생분들이 참석하신거 같았습니다. sb는 일단 KT 미래기술연구소의 이름을 달고 참석했구요.

사용자 삽입 이미지

KOINEN(WHATSS) 시연회

시연회는 중앙일보에서 유비쿼터스 카툰으로 시맨틱웹을 소개한 자료로 시작되었습니다.
http://article.joins.com/article/article.asp?total_id=2770581 '파리'를 검색했더니 곤충 '파리'만 잔뜩 나왔다는 동음이의어, 중의성 해결에 관련된 카툰있었습니다.

이렇게 시맨틱 웹 기술을 이용해서 중의성도 해결하고 사용자의 감정까지 파악해서 알맞은 검색을 한다라는 서론이 있었구요. 본론은 세계의 약 100억개의 웹페이지를 어노테이션한 1,200억개의 시맨틱 웹 페이지를 보유하고 있고, 400억개의 전문 도메인 온톨로지를 구축했으며, 이러한 것들이 로봇에 의해 자동적으로 이루어졌다고 합니다. 온톨로지와 색인어들은 실시간으로 반영되는데, 총 데이터의 색인은 약 한달이 걸리고, 부분적인 업데이트가 가능하기에 실시간 데이터가 반영된다고 합니다. 핵심기술 설명은 보안상 생략하시고 대부분 검색 데모 위주로 진행됐습니다.

KOINEN은 크게 5가지의 검색기능을 갖는거 같더군요.

첫번째는 디렉토리형 검색으로 '바이러스'로 검색했을 때, 생물학적 '바이러스'와 컴퓨터 '바이러스'로 카테고리 구분해서 보여주는 기능입니다. 두번째는 웹 검색으로 '유비'로 검색했을 때, 삼국지의 유비와 관련된 텀들을 보여주고 웹 페이지를 랭크하는 기능입니다. 세번째는 문장검색으로 '구글시가총액'로 검색했을 때, 구글 시가총액의 내용이 나오는 문장을 검색하는 기능이구요. 네번째는 사전검색으로 '말리키'라고 치면 아랍 총리라는 결과가 나오는 기능, 마지막은 개인화검색으로 개인검색패턴, 성향에 맞쳐서 결과를 보여주는 기능입니다. 제가 기능을 맞게 설명했는지 모르겠네요. 아무튼 준비하신 데모에 대한 검색은 비교적 잘 수행되었던거 같습니다.

여기까지가 sb가 보고 듣은 내용을 그대로 적은 부분이구요. 이제부터 sb의 생각을 적어 보겠습니다.

1. 시맨틱 웹에 대한 과도한 이상향을 그리지 않았는가?
- 시연회에 참석한 학생, 그리고 나중에 자료를 보게될 많은 사람들이 이렇게 생각할것이다. '시맨틱 웹이면 다 되는구나! 사용자의 감정상태도 알수 있고, 온톨로지를 구축하면 검색이 알아서 잘 되는구나!' 라고.

그간 몇년간의 시맨틱 웹에 대한 오해, 그리고 과장된 표현들이 이제야 웹2.0을 만나면서 실용적이고 사실적인, 시맨틱 웹이 할 수 있는 부분들을 직시하게 됐는데, 다시 과거 돌아가자는 말로 들린다. '시맨틱 웹이면 다 된다!' 매우 위험한 미사어구라고 생각한다.

물론 시맨틱 웹으로 연관된 텀과 의미를 찾는 검색은 중요한 응용분야라고 생각한다. 하지만 궁금적으로 자동화와 통합, 표준을 생각하지 않는 접근방식은 시맨틱 웹 기술이 아니라고 생각하구요.

더군다나 시맨틱스코리아에서는 RDF/OWL/TRIPLE 등의 표준기술들을 이용하지 않고 시맨틱 웹을 구현했다고 하던데, 그렇다면 향후 정보의 공유와 통합, 상호운영성은 어디서 보장되는지 궁금하다.

2. 과연 시맨틱 웹의 온톨로지가 맞는가?
- 시연회 내내 온톨로지라는 말을 사용했었다. 하지만 sb가 보고 느낀 바로는 온톨로지라기보다 거대한 유의어 사전으로 밖에 보이지 않았다. 시맨틱스코리아는 내내 동음이의어에 관련된 데모만 보여주었다.

그렇다면 'a'와'b'가 유사하고 'b'와 'c'가 유사해서 'a'와 'c'가 유사하다. 또는 'a'와 'd'는 반대여서 'b'와 'd'는 유사하지 않다라는 부분처럼 논리적인 부분이 검색에 이용될 수 었을까? 물론 추론적 기능이 트레이드오프로 제외되었더라도 sb가 배우고 공부한 온톨로지의 모습은 어디에도 없었다. 나름대로의 구조와 방식이 있다면 구별해서 표현했으면 한다. 많은 이들이 혼동을 느낀다.

3. 정말 자동화되었는가? 
- 100억개의 웹페이지, 1,200억개의 어노테이션 페이지, 400억개의 온톨로지, 시연회 내내 숫자를 강조하셨다. 사람이 하면 불가능하지만 로봇이 하면 가능하다라고 하셨다. 맞는 말씀이라고 생각한다. 어찌 사람이 일일이 다할 수 있을까? (우리나라는 하기도 한다;;)

그렇다면 로봇도 새로운 개념이 나오면 정의할 수 있고, 다른 개념과 속성과의 관계도 정의할 수 있는가? 만약 이 부분이 휴먼터치가 있다면 명시해주어야 하며, 자동화가 되었다면 시맨틱스코리아에 박사과정도 고려해야할 듯 하다. 나중에 질답시간의 '거성체조'라는 키워드는 검색이 안되더군요.

4. 검색 랭킹 모델이 존재하는가?
- 시연회 내내 '구글'과의 검색결과 비교를 하셨다. 당연히 다른결과 나올수 밖에 없다. 구글이 곤충 '파리'를 못 찾아서 프랑스' 파리'만 죽어라 상위 랭커에 올리겠는가? 랭킹 모델이 다르기 때문에 그런것이다.

시맨틱 검색을 설명할때 이러한 예는 적절하지 못하다고 생각한다. 시맨틱 검색도 '파리'만을 입력했다면 곤충'파리', 프랑스'파리'라고 나누어 주는 것 밖에는 못한다. 더군다나 문제는 명확한 랭킹모델이 존재하는가에 대한 물음이다.

sb의 질문에는 사용자의 검색성향에 따른 랭킹모델이 존재한다고 했다. 그렇다면 검색 전반적으로 개인화 검색이 되는것인가? 구글이 수십억개의 페이지, 수억 페이지뷰를 갖어도 빠른속도를 갖는것이 클라이언트의 정보를 휘발해 버리기 때문이라고 알고 있다. 매 검색에 있어서 사용자 정보를 탐색해야 한다면, 검색 유료 계정화해도 이윤이 안날것이다. 아무래도 온톨로지상에서 가중치 계산모델, 그리고 랭킹모델에 대한 보완이 필요할 거 같다.

사실 시맨틱 검색, KOINEN(WHATSS에서 개명된거 같음)에 대한 기대가 컸던거 만큼, 실망도 컸던 시연회였던거 같다. 낮은 호응도 또한 나를 화나게 했다. 이렇게 비공개로 쉬쉬 하면서 느지막하게 공개시연회를 한다면 사람들의 관심이 낮을 수 밖에 없다. 요사이 '위키노믹스'라는 책을 읽는데, 시맨틱스코리아분들께도 추천해주고 싶다. 그리고 블로그 검색엔진 '나루'의 시연회와 홍보마인드도 찾아보셨으면 한다.

다소 sb의 포스팅이 냉정하고 비판적일지 모르겠습니다. 하지만 웹에 있어서는 닫혀 있는 기술은 더욱 사람들의 공격을 받게 되있습니다. 아주 스마트하게 하지 않는 이상 말이죠. 이 포스트를 읽고 다른 생각을 갖게 계신분은 트랙백이나 덧글을 남겨주세요.

앞으로 정말 시맨틱 한 검색엔진이 나오길 바라면서 마칩니다.


Posted by BAGE