알고리즘 30

LSH( Locality sensitive hashing )

첨언 : 글을 쓰다 보니 LSH를 어디에 사용하는지 쓰지 않은것 같다. LSH는 문서를 몇개의 signature( 고유값 )으로 표현하는 방법이다. 일반적으로 문서 하나가 100여개의 단어로 구성되어 있다면 이를 벡터로 표현했을때 100차원이라고 볼수 있다. 이것은 제한된 크기 n차원으로 줄이는 기술이다. n이 크면 클수록 원본 데이터에 유사해지지만 속도가 느려지고 작아지면 속도가 빨리진다. 물론 차원을 줄여 속도가 빨라진다고 퀄리티까지 형편 없어지면 알고리즘이고 불리지도 않았을 것이다. 차원이 줄어들면 문서의 중복 제거나 클러스터링이 가능할것 같다. 구글에서는 이기술을 map & reduce와 접목시켜 개인화된 뉴스 클러스터링을 한다고 한다. Locality sensitive hashing : 고차원 ..

알고리즘 2008.10.07