Search Engine/IR Papers2008. 2. 11. 12:02

[펌] http://leominor.egloos.com/3696311


한국에서의 시멘틱 웹, 온톨로지의 한계 
"팀버너스 리"가 주창한 "시멘틱 웹"을 공부하다가 몇가지 한계를 찾아보았다.

1. 온톨로지 구축의 문제
    ㅇ 한 나라의 모든 언어를 온톨로지화한 사례가 없다.
         - 사례가 없을 뿐만 아니라...
           구축을 하게 된다면 너무나 많은 시간과 비용을 요구할 것으로 예측된다.
         - 웹 검색 및 웹 페이지에 쓰이는 단어는 "주소"나 "학술용어"처럼 생각만큼
           한정적이지 않고, 사실상 거의 모든 언어를 필요로 한다.
           ("주소"처럼 한정적 환경이라면 해볼만 하다. ㅋㅋ)
    ㅇ 끊임없이 발생되는 "신조어"에 대한 관리가 어렵다.
         - 훈남, 안습, 몸짱, 얼짱, 얼꽝, 썩소, ㅂㅂ ...
         - 신조어를 위한 온톨로지 구축에 막대한 유지비가 지속적으로 예상됨
           (신조어의 특성상 넷티즌들이 활발히 사용할 가능성이 크다.)

2. 온톨로지 활용(추론)의 문제
    ㅇ 한국의 특성상 외래어가 많이 사용된다.
         - 단일 언어라 볼 수 있는 미국과는 달리, 한국의 경우 "학교", "스쿨", "School"
           등이 혼재되어 사용된다.
         - 영문 형태의 신조어(OTL)도 만들어진다.
         - 이런 의미에서 한국의 경우 한글, 영문, 한글 외래어 표기 등의 수많은 경우를
           고려하여 온톨로지로 구축하여야 온톨로지 기반의 추론이 가능하다.
    ㅇ 수치 Data의 경우 처리 방안이 모호함
         - "70"이란 숫자가 주는 의미는 중간고사 점수, 토익 점수, 나이, 몸무게 등 컨텍스트에
           따라 그 내재된 의미가 다르다.
         - 또한 같은 영역에서도 시간과 환경에 따라 그 내재된 의미가 다르다.
           (과거 토플 점수와 현재 토플 점수)
    ㅇ 중의어 처리의 문제가 발생한다.
         - "맛있는 배" 같은 예제가 아니라 "괴물이 배를 삼키는 모습"의 예제라면,
           "배"란 단어의 의미를 추론해 낼 수 있을 것인가?
         - "배위에서 배를 먹으니 배가 아팠다" 등의 문장은 추론 보다는 기존 검색 엔진의
           패턴 매칭이 더 빠를 수 있다.
         - "무한도전"이란 단어로 온톨로지 만으로 TV 프로그램을 추론할 수 있을까?,
           "가수 신화"에서 신화의 뜻을 가수 이름으로 추론해 낼 수 있을까?
           만약 가능하다고 해도 "가수 서태지는 신화가 되었다"란 단어는 가수 "신화"가 아님을
           추론해 낼 수 있을까? 
    ㅇ 한국의 검색 시장 특성상 고유 명사 중심의 정보 검색이 많으며, 대중이 만들어 내는
        무수한 웹 Page(블러그, 미니홈피) 등도 고유 명사 중심의 자료들이 대부분이다.
         - 김태희 폰, 이효리 just 10 minutes, 이준기 굴욕, 이명박 부동산 비리
         - 순 우리말 이름의 경우 추론을 피해 고유명사로 파악할 수 있을까?
       
3. 시멘틱웹 적용의 이슈
    ㅇ UCC 등 사용자가 생산하는 시기적 상황에서, 통제 가능한 단위 사업자가 아닌,
       불특정 다수의 사용자가 자신이 생산하는 컨텐츠의 메타 정보를 시멘틱 웹을 이해해
       잘 만들어 낼 수 있을 거라고 믿기엔... 너무 지나치리만큼 개념없이 낙관적이다.

4. 결론
    ㅇ 특정 한정적 서비스 영역이나, 기업 환경 내부 서비스 연계 등의 이슈가 아니라,
        일반적인 웹 영역에서의 시멘틱웹은 적용이 어려우리라 생각된다.

     ☞ 즉, Web은 적절한 적용 영역이 아니다~ 

    -------- 결론 도출을 위한 세부 의견 ----------

    ㅇ 모든 언어에 대해 온톨로지를 구축하기 어려우며, 설혹 구축했다하더라도,
        신조어로 인해 지속적인 관리비가 예상된다.
         - 특정 기업이 자발적으로 모든 언어를 온톨로지로 만들기엔 너무 부담스러우며,
           또 이렇게 만들어진 온톨로지는 다른 기업과 공유될 가능성도 부족하다.
           (공공 단체등이 나서서 만들어 준다면 또 모를까? ㅋㅋ)
         - 서로 다른 온톨로지를 사용하거나, 시멘틱 웹이 적용된 웹 Site가 많지 않은 경우,
           효과가 반감된다.
    ㅇ 또한 한국의 특성상 한글 뿐만 아니라, 영어, 외래어 한자 표기 등의 언어까지
        온톨로지화 하지 않으면, 추론 가능한 범위 및 영역이 현저히 적어진다.
    ㅇ 한국 특성상 빈출하고 있는 연예인 이름 등의 고유명사 기반의 검색이나,
        중의어를 포함한 검색의 경우 추론이 어렵거나, 추론의 오류를 범할 수 있다.
    ㅇ 사용자가 시멘틱웹을 이해하고 블러그 등에 반영해 줄거라는, 현실과 동떨어진
        희망을 바탕으로 한다



Posted by BAGE