Search Engine2007. 8. 6. 13:30
http://teamblog.joinc.co.kr/yundream/41

나루 블로그 검색엔진에 대해서 이야기를 하고자 하는 이유는 내가 검색엔진관련일을 하고 있기 때문...... 이기도 하지만 나루 검색엔진을 직접 개발하고 있기 때문이다 -.-;;

내입으로 직접 개발에 참여중인 서비스를 얘기하려고 하니 낯이 좀 간지럽기는 하지만 뭐 어떠랴.

거 의 1년이라는 시간에 걸쳐서, 개발을 해왔고 드디어 지난주 금요일(2007년 4월 9일 날씨 맑음) Top 블로거와 검색엔진관련 개발자들에게 시연을 하는 자리를 가졌다. 그만님, 네오비스님, 떡이떡이님, 미친병아리님, typos님 등등의 이름만 들어도알만한 블로거분들이 참석했다. 이를테면 제한적인 클로즈베타 시연이라고 해야 할려나 ?

시연회자리도 좁고 해서, 어쩔수 없이? 시연회 자리에는 참석하지 못하고 그냥 내 자리에 앉아서 이게 잘돌아가나 어떤 검색어를입력하나 하는 등등을 모니터링 했다. 혹시라도... 죽는 사태가 발생하면 얼릉 복구해야 하니까.. ㅎㅎ.. 아시다 시피 이바닥에는 잘돌다가도 시연하는 날은 반드시 죽는다라는게 법칙처럼 되어 있으니 말이다.

완 성되지 않은 프로그램이라면, 잠재적인 버그를 가지고 있기 마련이고, 내부에서 테스트할 때야 뻔한 입력을 가지고 테스트하지만다양한 유저에게 노출되면 예상치 못한 입력에 대해서 문제가 발생할 수 있기 때문이다. 다행히도 시연은 문제없이 지나 갔다.

참석한 몇몇 분들이 시연과 관련된 글들을 적어주셨다.
주요한 이슈는 아래와 같았다.
  • 엔진은 좋은것 같다.
  • 서비스가 최적화 되어 있지 못하다.
  • 형태소 분석이 확실하지 않은거 같다.
  • attention 을 이용한 블로그 문서의 score 산정이 명확하지 못하다.

나루팀의 개발철학은 기반 기술을 튼튼히 하고, 그 위에 서비스를 구축하자 였다. 이러한 철학으로 개발을 하다보니, 중간 중간 기획에서 넘어오는 서비스 요청사항들의 상당 부분이 반영되지 못한 점이 있는것 같다. 가상화/분산검색/정확한 문서 score 알고리즘에 가장 중점을 두었고, 시연회까지도 서비스측면에서 신경쓰지 못한 부분이 많았기 때문이다. 이제 어느정도 기반시스템이 완성되었다고 생각되니 앞으로는 서비스의 수준을 올리는데 중점을 두어야 할 것이다.

후.. 한글문서 검색에 있어서 가장 큰 골치거리는 뭐니뭐니 해도 형태소분석이 될 것이다. 대한민국에서 구글과 같은 검색엔진에 있어서 한발 늦은 이유가 형태소 분석 때문이라는 말이 있을 정도로 정말 골치덩어리다. 검색기반기술이 어느정도 구축되고 나면, 실제 서비스단에서 제일 중요한것은 한글 문서를 어떻게 분석해서 색인해 두느냐와 사용자의 검색어를 어떻게 분석하느냐가 될 것이다.

형 태소분석과 함께 서비스에서 가장 중요한 또하나의 요소를 들라면, 스팸과 어뷰징, 간단히 말해서 낚시사이트를 어떻게 효과적으로걸러내고 정말 중요한 문서를 노출시키느냐가 될 것이다. 중복된 키워드를 등록해서 해당 문서를 첫화면에 노출시키느 낚시 사이트는굳이 예를 들지 않아도 많이들 경험해 보았을 것이다. google은 이러한 문제를 pagerank 기술을 이용해서 해결을 하고 있다. 링크를 일일이 조사해서, 해당 사이트를 참고하는 사이트가 많으면 높은 점수를 주겠다라는게 핵심이다.

현재 나루는 attetention이라는 것을 사용하고 있다. RSS리더기인 [http]fish의 로그를 링크처럼 활용하겠다는게 기본취지다. 로그를 분석해서 많은 방문이 이루어진 블로그 주소에 대해서 점수를 더주는 것이니, 구글의 pagerank와 그 개념은 같다고 볼 수 있다.

문 제는 pagelink 에서 사용되는 link는 범용적으로 사용되는 요소인 반면, attention은 응용프로그램에 대해서제한적이라는 점이다. 이는 효과적인 rank 산정을 어렵게 만들 수 있기 때문이다. 이 것은 나루검색팀 역시 심각하게 고민하고있는 문제중 하나로, 결국은 범용적으로 사용가능한 link 까지 함께 사용하는 방향으로 갈 것으로 생각된다. 다행히도 현재 attention만으로도 낚시 사이트를 꽤 잘 걸러주는 것같다.

역시.. 개발에 참여하는 입장에서 이런말 하기는 남사스럽긴 하지만 기다려 주시라.. 개봉박두


Posted by BAGE