포탈

Intention Search 2

고요한하늘... 2010. 10. 25. 19:07

이전 글중에 Intention Search라는 제목의 글을 쓴적이 있다.

이글을 쓴이후에도 관련 작업을 진행중에 있는데

기록할만한 내용이 있어서 블로그에 남긴다.


이런 저런 데이터를 가공해서 

사용자가 입력한 쿼리중 동일한 의도로 보이는 쿼리들을 그룹핑한후에  리뷰과정중

아래와 같은 쿼리들이 보였다.


철탑 == 재산리


얼핏 보기에 두가지 쿼리는 전혀 의미적 상관관계가 없어 보인다. 

어떻게 해서 두개의 쿼리가 동일 의도라고 판단되었는가?


우선 다음,네이버, 네이트에서 각 검색어의 관련 검색어를 살펴보자


------------------------------------------------------------------------------

다음 :  

철   탑 : 표준형철탑 철탑사진 철탑공사안전장치 송전 철탑 철탑공사 송전탑사진

재산리 : 관련검색어 없음

------------------------------------------------------------------------------


------------------------------------------------------------------------------

네이버 :

철  탑  : 송전철탑  배전 송전 애자 

재산리 : 용평면 금당계곡 금당천 법당골천 진등천 백암천 재제천 궁항천

------------------------------------------------------------------------------


------------------------------------------------------------------------------

네이트 : 

철   탑 : 관련검색어 없음

재산리 : 관련검색어 없음

------------------------------------------------------------------------------


철탑과 재산리 무슨 관련이 있을까

다음,네이버,네이트 모두 관련 검색에서는 이 둘사이의 관련성을 보여주지 못했다.


하긴 그도 그럴것이 '재산리'의 경우 하루  몇 건 검색 되는 쿼리이기 때문에 '관련검색어'로 묶일 가능성은 상당히 희박하다.


결론부터 말하면

재산리에 송전탑이 들어서는 문제때문에 두가지 키워드가 같은 의도의 쿼리로 분류되었다.


이것이 의미하는 것은 이 두개의 쿼리는 특정 시간영역안에서만 동일한 의도의 쿼리로 묶일수 있다는 것이다.(송전탑 문제가 해결된다면 더이상 두개 쿼리는 의도가 같은 쿼리가 아니기 때문에 )


일반적으로 관련 검색어는 사용자가 일정 시간동안 입력한 쿼리들의 pair중 고빈도 pair를  추출하는 방식인데

이런 방식은 저빈도 쿼리에 대해 맹점이 있을수 있다.