포탈

다음 웹검색 오픈

고요한하늘... 2007. 5. 9. 10:18

다음커뮤니케이션이 웹검색을 오픈했다.

 

조금 늦은 감은 있지만 그동안 검색에 등안시 하던 다음에서 웹검색을 오픈했다는것은 시사하는 바가 크다고 할수 있다.

 

아직 퀄리티를 따지기에는 이른 베타버전이지만 나름대로 의미 있는 시도가 있어서 소개한다.

 

다음검색에서 가장 고질적인 문제가 캐릭터셋 문제였다.

한국어 검색엔진에서 항상 문제가 되는 EUC-KR로 대표되는 캐릭터셋 문제인데 다음 웹검색은 과감히 기본 캐릭터셋을 UTF-8로 사용하고 있다.

 

캐릭터셋 하나 바꾼걸 가지고 무엇이 대단하냐고 하실 분들도 있겠지만 기반이 되는 여러가지 모듈에서 지원이 되어야 가능한 것이기에 보이는 것 보다 큰 작업이었다.

 

데이터 크롤링하는 크롤로에서부터 데이터를 저장하는 DB, 데이터를 분석하는 형태소 분석기까지 모두UTF-8을 지원해야 한다.

 

이것과는 부차적으로 터미널환경부터 바꿔야 했다. 기존에 zterm을 사용했지만 UTF-8지원이 되지 않아 PUTTY로 터미널을 변경해야 하고, VIM의 캐릭터셋을 변경해야 하고..............이것저것 손가는 것이 생각보다 많았던것 같다.

 

 

 

 

캐릭터셋의 변경은 이렇게 설명할수 있을것 같다. 많은 사용자들이 주로 찾는 쿼리(Big Head)들도 중요하지만 그렇지 않은 쿼리 즉 (Long Tail)롱테일의 쿼리도 버릴수 없다라는 생각에서 의미있는 시도였고, 다음웹검색은 이런 롱테일에 집중하는 검색이 되기 위한 첫걸음을 내딛었다고 말할수 있을것 같다.

 

EUC-KR에서 표현되지 않는 대표적인 글자들....

 

, 설믜, 똠방각하 

 

ps. 웹검색이라는것이 태생부터 다국어 영역이기 때문에 UTF-8은 어쩌면 충분조건이 아니라 필수 조건이었는지도 모르겠다.