suffix tree clustering ( STC )

포탈

고요한하늘... 2009. 7. 14. 17:06

일반적으로 문서 클러스터링이라 함은 유사한 문서들은 그룹핑하는 것을 의미한다.

top-down 이나 bottom-up이니 하는 것은 교과서에 나오는 이야기이니 생략하고 바로 본론으로 들어가면

클러스터링 방법중에 STC라는 방법이 있다. 다른 알고리즘과 다른 점은 실시간으로 서비스가 가능하다는 것이다. 클러스터링 뎁스가 깊지 않더라도 실시간으로 클러스터를 구축하는 것은 기존의 방법론으로는 여간 어려운 일이 아니었다.

클러스터링 검색으로 유명한 clusty.com이 아마도 이 방법을 이용한 클러스터링을 하는 것으로 보인다.

STC(suffix tree clustering)의 장점은 클러스터를 대표할수 있는 label을 비교적 잘 추출할 수 있는데 있다.

'다음커뮤니케이션'의 검색결과로 만들어낸 클러스터들의 label이다.

고전전 방법의 클러스터링에 비해서 클러스터링의 깊이가 깊지는 않을수 있지만 추출된 label로 인해 클러스터의 identity를 부여할수 있는 장점이 있다.

속도를 위해 최소한의 언어처리 즉 조사 제거 정도만으로 label에 대한 정제를 한다면 그런데로 사용자에게 정보를 요약해 제공하는데 의미가 있을것 같다.

clusty.com의 클러스터 label

참고 :http://clusteringalgorithms.blogspot.com/2007/07/improving-quality-of-search-results.html

-------------------------------------추가----------------------------------------

고요한 하늘

책, 형태소 분석, 자금성, 구글, 만리장성, 리뷰, 디-워, 다음, 검색어 추천, 네이버,

고요한 하늘