clustering site ( document clustering ) http://www.clusty.com http://www.iboogie.com http://demo.carrot2.org http://quintura.com http://kartoo.com/ http://live.grokker.com http://www.gceel.com - 추가( 2009/08/14 ) http://www.webclust.com - 추가( 2009/09/24 ) 언어처리 2009.05.22
한국어 '어미' 종류 종결어미 : 평서형: -다, -네, -오, -ㅂ니다, -느니라, -렷다, -마 감탄형: -구나, -군, -로구나, -어라/-아라 의문형: -니, -느냐, -는가,-나, -ㅂ니까, -ㄹ까.... 명령형: -어라/-아라, -려무나, -ㅂ시오.... 청유형: -자, -ㅂ시다, -세.... 연결어미 : 대등적: -고, -며, -자, -면서,-지만, -락,-거나, 든지 종속적: -면, -니,.. 언어처리 2009.03.04
min hash http://www.stanford.edu/class/cs276b/handouts/minhash.pdf jaccard measure : 교집합/합집합 열 : 1 2 3 4 5 6 c1 : 0 1 1 0 1 0 c2 : 1 0 1 0 1 1 sim(c1,c2 ) = 2/5 = 0.4( c1과 c2가 0인것은 제외 ) 관심사항은 c1이나 c2에 적어도 하나이상은 값이 있는 열 총 6개의 열이 있다고 할때 4번 열은 c1,c2가 0이기 때문에 제외하고 random하.. 언어처리 2008.12.13
auto tagging auto tagging : 태그를 자동으로 달아주는 것 그럼 tag는 ①프로그램 작성에서 데이터 구조에 붙여진 1개 이상의 문자로, 그 데이터 구조에 관한 정보를 포함하고 있어서 그것을 식별할 수 있게 하는 것. 식별자라고 하면 될까... 블로그에 글을 쓰다보면 태그라는것을 기록하게 된다. 사람마다 태그에 대한 .. 언어처리 2008.10.29
Yi Syllables - 0xa0c2 아래와 같은 문장에서 one more image to commit to his memory of these Games 일반적으로 형태소 분석기는 공백단위를 기준으로 어절을 입력으로 받기 때문에 두개의 어절이 합쳐저 하나의 결과값으로 나타나지 않는다. 그런데 [these Games]가 마치 하나의 어절과 같이 추출되었다. od -x로 코드값을 살펴보니 (유니코.. 언어처리 2008.10.07
Expectation Maximization EM 알고리즘은 확률 모델에서 MLE parameters를 찾기위해 사용한다. EM 알고리즘은 두단계를 거치는데 첫번째 단계는 E단계( Expectation step ) 두번째 단계는 M단계( Maximization step )이다. running 과정에서는 이 두 단계가 계속 반복된다. 간단한 예를 살펴보면 1. 초기값 설정 2. 반복 과정 2.1 E-STEP : 주어진 현재 파.. 언어처리 2008.09.05
제20회 한글 및 한국어 정보처리 학술대회 장소 : 서울대학교 일자 : 2008년 10월 10일(금) - 11일(토) 홈페이지 주소 : http://duan.chonbuk.ac.kr/~hclt2008/ 이번에 포스트라도 하나 낼려고 하는데 다른 프로젝트로 바빠서 못낼것 같다...ㅡㅡ; 언어처리 2008.09.01
영작 하는 법 만약에 내가 영작할 문장이 '세상에서 가장 높은 산' 이라고 할때 2개국 언어로 검색을 해주는 검색엔진 http://www.2lingual.com에 들어가 검색어로 "세상에서 가장 높은 산" 이라고 넣고 번역해서 찾을 언어로 Korean과 English를 선택하고 검색을 한다 그러면 오른쪽 검색 창에 해당 검색어에 대한 영어 검색어.. 언어처리 2008.07.24
아랍어 테스트 아랍어에 대한 테스트를 해야 하다.. 쉽고 빠른 법 위키피디아에서 아라비어를 선택한다. 최근에 알게된 2가지 언어로 검색해주는 검색엔진을 찾아간다. 여기에 위키에서 가져온 단어를 넣고 검색하면 해당 아랍어를 한국어로 번역해서 보여준다. 이렇게 하면 테스트하기가 한결 쉬워진다. 위키 : http:.. 언어처리 2008.07.24
bigram , trigram 다음은 모지? 최소한 용어는 알아야 하지 않을까 싶어서... 1 = uni- 2 = bi- 3 = tri- 4 = quad-, tetra-, 5 = penta- 6 = hex-, 7 = sept- 8 = oct-, octa- 9 = non-, nona- 10 = dec-, deca- 구글 어절 ngram data가 아마 pentagram까지 있다고 들었는데 penta-gram 정도까지만 알면 되지 않을까... 언어처리 2008.07.11