출처: http://www.hani.co.kr/arti/economy/economy_general/291102.html
다양한 검색모델 최근 공개 “페이지 랭크는 기술 일부 검색 특징 계속 설명할 것
뛰어난 검색 품질로 전세계 검색시장을 평정한 구글이 베일에 가려져 왔던 검색시스템의 구조에 대해 언급했다. 구글의 검색 품질을 책임지고 있는 기술담당 부사장 유디 맨버는 지난달 20일 구글의 공식 블로그에 글을 올려 검색 알고리즘 구조를 설명했다.
다양한 검색모델 최근 공개 “페이지 랭크는 기술 일부 검색 특징 계속 설명할 것
뛰어난 검색 품질로 전세계 검색시장을 평정한 구글이 베일에 가려져 왔던 검색시스템의 구조에 대해 언급했다. 구글의 검색 품질을 책임지고 있는 기술담당 부사장 유디 맨버는 지난달 20일 구글의 공식 블로그에 글을 올려 검색 알고리즘 구조를 설명했다.
구글은 검색 결과에 순위를 매기는 알고리즘을 ‘왕관의 보석’과 같은 존재라며, 경쟁력 유지와 악용 방지를 이유로 철저하게 비밀에 부쳐왔다. 구글 검색은 창업자인 세르게이 브린과 래리 페이지가 개발한 ‘페이지 랭크’라는 알고리즘으로 유명하다. 페이지 랭크는 특정 웹페이지로 이어진 링크의 수와 그 링크가 있는 사이트에 연결된 링크의 수를 따져, 해당 페이지의 신뢰도와 적절성을 계산해 보여주는 구조다. 페이지 랭크 기술은 ‘구글 폭탄’을 낳기도 했다. 구글에서 ‘miserable failure’(참담한 실패)를 검색하면 조지 부시 미국 대통령을 소개하는 백악관 홈페이지로 연결되는 식이다. 부시를 조롱하려고 누리꾼들이 특정 사이트로 연결되는 링크를 생성한 데 따른 것이고, 한국에서도 ‘학살자’와 같은 구글 폭탄이 만들어졌다. 검색 알고리즘은 노출될 경우 검색 신뢰성이 위협받을 수 있는 최고의 기업비밀이다.
맨버는 이제 페이지 랭크 기술은 구글 검색시스템의 일부에 불과하다며, 구글의 다양한 검색 모델을 설명했다. 여기에는
△문장과 동의어, 맞춤법 실수 등 언어의 모호성을 처리하는 기술
△두 단어 이하로 묻는 이용자들의 질문 습관
△30분 전에 만들어진 페이지와 오랜 시간 유지된 페이지 중 어느 것이 더 적절한지를 판단하는 시간 모델
△이용자마다 검색 목적이 다른 데 따른 개인화 모델
△1000분의 1초 안에 모든 것을 처리해야 하는 기술
△두 단어 이하로 묻는 이용자들의 질문 습관
△30분 전에 만들어진 페이지와 오랜 시간 유지된 페이지 중 어느 것이 더 적절한지를 판단하는 시간 모델
△이용자마다 검색 목적이 다른 데 따른 개인화 모델
△1000분의 1초 안에 모든 것을 처리해야 하는 기술
등이 쓰인다고 맨버는 밝혔다. 그는 구글이 지난해에만 450건의 검색 품질 개선작업을 했다며, 앞으로 비밀주의를 벗고 블로그를 통해 구글 검색의 특징을 설명하겠다고 밝혔다.