LSI example by google http://www.latentsemanticindexing.co.uk/category/tools/ 위 페이지에 따르면 semantic terms을 추출하기 위한 가장 간단한 툴이 바로 google이란다. 예제로 나와 있는것은 apple 이라는 키워드인데 검색을 할때 ~(tilde)[키워드] 형태로 하면 LSI에 의해 추출된 키워드로 bold 처리되어 보여준다. apple로 검색을 했을때 같이 볼드 .. 언어처리 2008.05.28
영한 <-> 한영 번역 사이트 가끔 사용해 보긴 하지만 한국어와 영어를 번역해서 보는건 아직 먼 이야기같다.. 라이브 : http://translator.live.com/Default.aspx?mkt=ko-kr 구글 : http://translate.google.co.kr/translate_t 야후 : http://kr.babelfish.yahoo.com/translate_txt 엠파스 : http://trans.empas.com/ 언어처리 2008.04.04
쉽지 않은 한국어.. 1. 나는 청주에서 유년 시절을 보내다가 얼마전에 서울 외각으로 이사를 했다. 2. 지금은 결혼을 해 주위에서 금술 좋은 부부로 소문이 났다. 위에 써 놓은 문장에는 두개의 잘못된 표현이 있다. 찾는게 쉽지 않을 것이다. 최근에 기사를 보다보면 댓글에 오타를 지적하는 글들을 종종 보곤하는데 가끔.. 언어처리 2008.04.03
etri(에트리) tagset(태그셋) 계층1 계층2 계층3 s(기호) f(외국어) n(명사) nc(자립명사) nb(의존명사) np(대명사) nn(수사) pv(동사) pa(형용사) px(보조용언) co(지정사) ma(부사) mag(일반부사) mgj(접속부사) mm(관형사) ii(감탄사) x(접사) xp(접두사) xs(접미사) xsn(명사.. 언어처리 2008.03.13
동의어 처리...( 검색에서 ) 검색엔진에는 수없이 많은 외래어 들어 들어온다. 외래어 표기법이 있긴 하지만 이를 모두 숙지하고 외래어를 입력하는 사람은 거의 없다. 어쩌면 이건 시스템이 해주는게 맞을지도 모르겠다. 외래어로 표기할때 자주 혼동하는 발음이 '에와 '애'일 것이다. 예를 하나 들면 'RedHat' 의 경우 레드햇 레드.. 언어처리 2008.03.09
POS(Part of speech) tagger 형태소 분석기의 일부 모듈중에 다른 모듈에 비해 중요성이나 크기가 상대적으로 크기 때문에 분리해서 이야기하는 모듈이 두가지 있다. 그 첫번째는 복합명사 분해 모듈이고 두번째는 태거이다. 복합명사 분해 모듈은 말 그대로 (명사+명사+명사)로 이뤄진 형태를 '명사/명사/명사'의 형태로 잘게 쪼.. 언어처리 2008.03.08
세종(sejong) 태그셋(tagset) 체언 명사 NN 일반명사 NNG 고유명사 NNP 의존명사 NNB 대명사 NP 대명사 NP 수사 NR 수사 NR 동사 VV 동사 VV 용언 형용사 VA 형용사 VA 보조용언 VX 보조용언 VX 지정사 VC 긍정지정사 VCP 부정지정사 VCN 수식언 관형사 MM 관형사 MM 부사 MA 일반부사 MAG 접속부사 MAJ 독립언 감탄사 IC 감탄사 IC 관계언 격조사 JK 주격.. 언어처리 2008.02.26
띄어쓰기의 어려움 bigram 2-1 최근 2개월간 나의 최대 관심사는 띄어쓰기이다. 물론 2개월 이전에도 관심을 가지고 논문 몇편을 보긴 했었다. 하지만 회사에서나 집에서나 대부분의 시간을 이문제에 대해서 생각한건 최근 2개월 동안이었던것 같다. 논문을 쓰기 위한 고민이 아니었기 때문에 고민의 가지수는 더 많아.. 언어처리 2008.02.03
띄어쓰기 쿼리 데이터를 한참 들여다보면 정말로 가지 각색의 쿼리들이 들어온다. 그런 쿼리들중 unique한 쿼리를 기준으로 보면 띄어쓰기가 된 쿼리(공백이 하나 이상)들이 채 50%도 되지 않는다. 물론 50% 쿼리중에는 단일어라서 띄어쓰기가 필요없는 쿼리들도 상당수 있지만 그래도 생각보다 띄어쓰지 않는 쿼.. 언어처리 2008.01.16
opensource for nlp http://opennlp.sourceforge.net/links.html The Natural Language Software Registry CMU Artificial Intelligence Repository Speech and Language Web Resources PennTools Dan Melamed's Tools comp.speech ftp site fieldmethods.net, news related to human language technologies GATE, an open source architecture and development environment for language processing WordNet a lexical database of the English la.. 언어처리 2008.01.03