언어처리

Yi Syllables - 0xa0c2

고요한하늘... 2008. 10. 7. 11:49

아래와 같은 문장에서

 

one more image to commit to his memory of these Games

 

일반적으로 형태소 분석기는 공백단위를 기준으로 어절을 입력으로 받기 때문에

두개의 어절이 합쳐저 하나의 결과값으로 나타나지 않는다.

그런데 [these Games]가 마치 하나의 어절과 같이 추출되었다.

 

od -x로 코드값을 살펴보니 (유니코드)  0xa0c2값이 찍힌다.

 

어떤 캐릭터 타입인가 찾아봤더니

Yi Syllables 이라고 한다.

 

중국의 서남 지방 원주민들이 사용하던 티벳어라고 한다.

 

근데 이 글자가 터미널 상에서는 공백문자와 동일하게 보여서 마치 형태소 분석기가 오동작 하는것 같이 보인것이다.

 

euc-kr에서 utf-8로 넘어오니 euc-kr에서는 문제가 되지 않던 것들이 문제가 된다.



 

'언어처리' 카테고리의 다른 글

min hash  (0) 2008.12.13
auto tagging  (0) 2008.10.29
Expectation Maximization  (0) 2008.09.05
제20회 한글 및 한국어 정보처리 학술대회  (0) 2008.09.01
영작 하는 법  (0) 2008.07.24