프로그램

색인기(색인어 추출기)에 필요한 토큰 분리기

고요한하늘... 2005. 12. 7. 21:21

색인기에서 사람이 원하는 색인어를 추출하는건 열사람이 생각하는 점심메뉴가 항상 똑같이 나오는것 만큼이나 어렵다.

음절 수에 따라 다르고 캐릭터 셋에 따라 다르고

 

+, -, * 등을 분리자로 사용하자니 "c++" c# 과 같은 특수 기호가 포함된 어절이 분리되고

붙이자니 "다음+라이코스"와 같은 경우 분리되지 않는 문제가 생기게 된다.

 

&를 구분자로 사용하자니 kt&g, at&t가 분리되는 문제가 생기고 붙이자니 daum&naver와 같은 경우가 분리되지 않는 문제가 발생한다....

이보다 더 나를 괴롭게 하는건 vi sual c++6 과 같은 경우 c++6으로 추출 하면 c++  6.0으로 된 문서는 검색되지 않는 문제가 발생하여 1음절 숫자를 띄우면 "중1"과 같은 경우 "중"과  "1"이라는 키워드에 매치된 검색어와 별로 관련이 없는 수많은 문서들이 검색된다....

'프로그램' 카테고리의 다른 글

문서-쿼리=:10  (0) 2006.03.02
[스크랩] CVS 구축 및 관리  (0) 2006.02.03
형태소 분석기? 색인기?  (0) 2005.12.07
ascii 코드 테이블  (0) 2005.11.14
IT 업계를 떠나는 소프트웨어 개발자들  (0) 2005.11.01