색인기에서 사람이 원하는 색인어를 추출하는건 열사람이 생각하는 점심메뉴가 항상 똑같이 나오는것 만큼이나 어렵다.
음절 수에 따라 다르고 캐릭터 셋에 따라 다르고
+, -, * 등을 분리자로 사용하자니 "c++" c# 과 같은 특수 기호가 포함된 어절이 분리되고
붙이자니 "다음+라이코스"와 같은 경우 분리되지 않는 문제가 생기게 된다.
&를 구분자로 사용하자니 kt&g, at&t가 분리되는 문제가 생기고 붙이자니 daum&naver와 같은 경우가 분리되지 않는 문제가 발생한다....
이보다 더 나를 괴롭게 하는건 vi sual c++6 과 같은 경우 c++6으로 추출 하면 c++ 6.0으로 된 문서는 검색되지 않는 문제가 발생하여 1음절 숫자를 띄우면 "중1"과 같은 경우 "중"과 "1"이라는 키워드에 매치된 검색어와 별로 관련이 없는 수많은 문서들이 검색된다....
'프로그램' 카테고리의 다른 글
문서-쿼리=:10 (0) | 2006.03.02 |
---|---|
[스크랩] CVS 구축 및 관리 (0) | 2006.02.03 |
형태소 분석기? 색인기? (0) | 2005.12.07 |
ascii 코드 테이블 (0) | 2005.11.14 |
IT 업계를 떠나는 소프트웨어 개발자들 (0) | 2005.11.01 |