정보의 구조화와 검색

(정보의구조화와검색에서 넘어옴)

1 개요[ | ]

情報の構造化と検索
정보의 구조화와 검색

 

2 # 거북이[ | ]

뭔가 말은 많은데 가끔 영양가가 상당히 떨어지는 책이 있다 이 책이 좀 그렇다. 최대의 실수는 이 책의 절반 이상이 멀티미디어 정보에 관한 내용이라는 점이다. 이제 제목만 보고 책 사는 일은 좀 자제해야겠다.

이걸 보고 느껴지는 것은 학계와 현장의 거리감이다. 내가 검색포탈 사이트에서 근무하면서 개인적으로도 검색에 지대한 관심을 가지고 있는 사람임에도 불구하고 책에는 항상 현실감이 떨어지는 얘기들 위주로 적혀있거나 되도않는 공식들만 적혀있고 뭐 그렇다. 내가 원하는 것은 텍스트 검색을 효율적으로 하기 위해서는 어떤 속성들을 중시해야 하는 가에 대한 사례적, 정성적 분석이다. 정성적 이해가 되어야 기획이 가능하고 기획이 정리되어야 일관된 개발이 가능하다. 그런데 검색에 관해 정성적 이해를 돕는 책을 나는 거의 본 적이 없다. 이유가 무엇인지 잘 모르겠다. 어디 사전 편찬 과정을 기록한 책이 없나 찾아봐야겠다. -- 거북이 2004-10-31 2:38 pm

보편적인 것들
  • 상황과 접속사 등을 이용하여 연관관계를 패턴화 할 수 있다. (귀찮은 일이다 -_-)
  • tf-idf : 문서내의 키워드 빈도 / 문서집합 내에서 키워드가 나오는 문서 수
  • 메타데이터는 6하원칙에 따라 부여
  • 대개의 경우 검색은 매칭이다.
텍스트
  • 자기조직화 맵(self organizing map)을 이용한 자동분류 (설명 좀 해다오. 몬소리고...-_- WebSOM)
  • 코퍼스를 n-gram모델을 통해 지지고 볶으면 항상 같이 다니는 단어들(trigger pair)를 추출할 수 있으며 이것을 반복적으로 배치하면 화제가 달라지는 전환점을 기계적으로 구할 수 있다
  • 정규화되어있고 방대한 데이터 웨어하우스를 만들어라
  • 클러스터링은 장기적으로 효과적인 브라우징 방법이 될 수 있다.
영상
( 손이 너무 간다. 산업화해서 직접 활용할 레벨이 아니라면 현실감 없음 )
  • 분할 : 물리적 단위로 쪼갬, 논리적 단(story grammar?)위로 쪼갬
  • 아나운서가 스포츠 중계하듯 각 아이템의 속성에 대해 이해하고 기술하지 않으면 활용 불가능
  • 요즘 뉴스등은 스크립트를 보관하여 검색이 가능하게 해둔 곳도 있다.
  • 이미지의 아웃라인으로 패턴화 할 수 있다.
  • 픽셀단위로 나누어 그 농담이나 RGB값의 비교로 찾아볼 수도 있다.
  • 이미지를 구분하는 단위는 구도와 시선에 따라 직선형, 방사선형 등 여러가지 관점을 적용할 수 있다.
  • 대상을 점으로 규정하고 그 움직임을 매치시켜볼 수도 있다.
  • 정규화된 데이터를 많이 축적하는 수 밖에 없다.
소리
  • 멜로디를 악보로 가지고 있으면 흥얼거리는 소리를 상대적으로 기록해서 그 유사패턴를 찾아볼 수 있을것이다.

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}