언어처리

네이버 형태소 분석 결과

고요한하늘... 2009. 8. 6. 15:32

네이버랩에 가끔 들려 새롭게 업데이트 되는 서비스가 없는지 확인하곤 하는데

우연한 기회에 네이버에서 사용하는 형태소 분석 결과를 추축할수 있는 페이지를 발견하게 되었다.


랩매뉴중 하나인 뉴스클러스러링 페이지를 보면 우측에 이슈 키워드라고 보여주는 메뉴가 있다. 플러스 표시를 클릭하게 되면 아래쪽에 서브 키워드를 보여주는데 이 서브 키워드를 보고 네이버 형태소 분석 결과를 일부지만 분석 로직을 추축해 볼수 있었다.


첫번째 키워드 "김보연"을 선택해서 보면

첫번째 서브 키워드가 "9 9살 연하 남편 전노민"이다.

"9 9"가 이상하게 보이는데 이렇게 보이는 이유는 다음과 같다.

형태소 분석기가 숫자+단위명사의 경우 

색인을 할때 두개의 색인텀을 추출한다.

하나는 숫사만 색인을 하고

다른 하나는 숫자+단위명사를 색인하는 방식을 사용했기 때문에

9, 9살 처럼 키워드가 보이는 것이다.

이런 흔적은 "대한민국"이라는 키워드에 가면 더욱 자세히 알수 있다.

"제1회"의 경우는 더욱 많은 색인텀을 추출해 주는데

1. 제1

2. 제1회

3. 1

4. 1회

총 4개의 색인텀을 추출하는것 같다.


아래의 예는 조금 이상하게 색인텀이 추출된것 같긴한데 

"뮤직뱅크" 키워드에 보면 "두번째 싱글"에서 두번째는 "두"와 "두번째"가 추출되었다.


그리고 문서에서는 "첫 키스"와 "첫키스"가 혼재되어 있는데 키워드로노출될때는 "첫 키스"로 첫과 키스를 띄어줌으로써 형태소 분석을 한 흔적이 엿보인다.




'언어처리' 카테고리의 다른 글

what do you want?  (0) 2010.07.12
intention search(의도파악)를 한다면  (0) 2010.07.09
naive bayes classifier  (0) 2009.06.19
single link and complete link  (0) 2009.06.01
스러운 vs 스런  (0) 2009.05.28