언어처리

형태소분석 띄어쓰기....

고요한하늘... 2007. 1. 2. 23:37

일반적으로 형태소 분석기는 띄어쓰기가 올바로된 문자열을 입력으로 가정한다.

그렇기 때문에 띄어쓰기 오류가 포함된 문장에 대해서는 정확한 분석을 하기 어렵다..

이와같은 가정을 하는 이유는 간단하다..

정확률을 높이기 위해서다.

다른말로 하면 형태소 분석을 하기 위해 고려해야될 변수를 제한하여 오분석을 줄이고자 함이다.

명사 다음에는 명사 또는 조사가 온다고 가정을 하고 분석을 하는것과 명사 다음에 어떤 품사든지 올 수 있다고 가정을 하고 분석을 하는 것 중 당연히 전자가 분석 정확도가 높을 것이다.

 

 

그런데 최근에는 인터넷에서는 띄어쓰기 오류가 상당히 빈번히 발생하고 있다.

 

다음검색에서 "공부잘하는방법"라고 치는 순간에도 띄어쓰기 오류가 포함된 검색어들이 추천된다.

 

이런 추천어들은 빈도순으로 보여주기 때문에 "하는방법", "하는비법", "하는법" 은 띄어쓰는 것 보다 붙여쓰는 것이 많다는 이야기도 된다.

 

그래서 최근에는 자동띄어쓰기 시스템이 선택이 아닌 필수가 되고 있다.

그런데 형태소 분석기와 마찬가지로 자동 띄어쓰기 시스템도 상당히 오랜 동안 튜닝이 필요한 부분이라 적용을 결정하기가 쉽지 않다.

 

 

형태소 분석기 제대로 되지 않는 쿼리를 자동 띄어쓰기를 한후에 검색결과를 보여주었을때

입력 쿼리 ex) 라면끊이는법

 

1. 띄어쓰기가 잘못되어 이상하게 검색된 경우와 ex)라면 끊 이는 법

2. 띄어쓰기를 하지 않고 입력쿼리(공백이 없는)로 검색할 경우 ex)라면끊이는법

 

위의 1)과 2)중 어느것이 사용자에게 불편함을 덜어주는 것인지 판단하는 건 정말 어렵다.

 

띄어쓰기가 제대로 되는 경우도 있고 그렇지 않은 경우도 있는데 제대로 되지 않는 것 때문에 제대로 되는 것을 버릴 것이냐...아니면 분석하지 않고 통째로 검색할때 오히려 검색결과가 좋을 경우도 있지만(외래어) 그렇지 않은 경우가 더 많다면... 띄어쓰기를 해야 하지 않을까?

 

 

 

 한국어에서 띄어쓰기란...

윤도현 의사랑 했나봐