프로그램

[스크랩] 정보검색관련 용어집 #1

고요한하늘... 2006. 5. 5. 13:03

내용출처 : http://kordic.britannica.co.kr/

 

'말뭉치' (corpus)

언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합을 뜻합니다. 이런 조건만 만족할 수 있으면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말 또는 글로 표현된 각종의 자료에 이르기까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있으며, 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있습니다. 그러므로 말뭉치라는 용어는 연구의 목적이나 성격에 따라 다양한 대상을 지시할 수 있는 포괄적인 개념을 갖고 있습니다. 최근의 언어 연구에서는 말뭉치의 개념을 더 좁게 보아, “일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”를 가리키는 개념으로 사용하는 것이 일반적입니다.

말뭉치의 개념은 20세기 전반 미국의 구조주의적 언어학에서부터 있었습니다. 실증적 자료를 중시하던 당시 언어학의 풍토에서 실제 말이나 글로 발화되거나 표현된 언어 자료는 언어 연구의 전제 조건이었고, 실제 사용된 언어 자료를 그대로 모아 놓은 말뭉치는 언어 연구의 기초로 여겨졌던 것입니다. 1963년부터 2년 간에 걸쳐 100만 어절로 구축된 브라운 말뭉치(Brown Corpus)를 시초로 하여 컴퓨터를 이용한 구축이 본격화되었고, 1990년대에는 1억 어절 이상의 영국 국가 말뭉치(BNC:British National Corpus)가 구축되기에 이르게 되었습니다. (「국어정보학입문」(서상규, 한영균 공저, 태학사, 1999년)에서 발췌함.)

국내에서도 1988년부터 구축되어 온 연세대학교의 연세 한국어 말뭉치를 비롯하여 한국과학기술원, 고려대학교, 국립국어연구원 등에서 본격적으로 말뭉치를 구축해 오고 있으며, 1998년부터 ‘21세기 세종 계획:국어정보화 추진 중장기 사업’의 일환으로 우리나라에서도 본격적으로 국가 말뭉치가 구축되기 시작하였습니다.

「연세 한국어 사전」을 편찬하는 과정에서는, 1960년대로부터 1990년대 중반까지의 국내의 출판물과 일부의 구어 등을 중심으로 하여, 다양한 주제와 형태의 글을 전산 입력하였고(이것을 '연세 말뭉치'로 부릅니다), 이 자료에서 단어가 실제로 쓰인 용례를 찾아서 의미와 용법을 알아내어 사전에 기술한 것입니다.

 

 

 

'은닉 마르코프 모델' (HMM : Hidden Markov Model)
HMM은 음성인식을 위한 기본단위(음소)를 모델링하는 방법이다. 즉 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방법으로 국내 대부분의 음성인식 엔진업체들이 사용하고 있다.


HMM은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 확률처리 방법으로 현재 음성인식에 많이 사용되고 있다. 따라서 음성인식에서 HMM방식을 이용한다는 것은 음성인식의 최소단위(음소)를 모델링해 이를 이용해 음성인식 시스템을 구성하는 것을 말한다.

 

이에 따라 HMM의 장점은 다른 방법보다 인식률이 높다는 것이다. 그러나 현재의 HMM 훈련샘플이 충분하지 못할 경우에는 정확한 모델추정이 어려운 점과 음소문맥에 관한 지식이 필요하다는 등의 문제가 있다.

 

이를 해결하기 위한 방법으로 최근에는 HMM을 네트워크 형식으로 엮은 HMNET기술이 선보이고 있다. 이 방법은 음소단위를 네트워크 형식으로 구성하기 때문에 기존의 음성인식 구성기술보다 인식률이 높다. 

 

 

 

 

내용출처 : http://blog.naver.com/gildonghon/80007784777

 

은닉마르코프 모델을 활용한 영어문의 형태소 해석

 

영어의 경우는 형태소의 구별이 비교적 쉽고, 일본어의 형태소 해석처럼 연접관계가 명확히 존재하지 않지만, 하나의 단어에 대해서 여러 가지 품사가 가능하기 때문에, 영어에서의 형태소해석이라 함은 주로 품사를 추정하는 것을 말한다. 이 같은 처리를 품사 부여 혹은 품사 태깅(tagging)이라고 한다. 품사 부여의 척도에는 다음 두 가지가 있다.

 

각 단어의 복수의 품사 중 어느 것이 가장 그럴 듯한 품사인가?

품사 나열에 대한 우선도. 예를 들어, the 뒤에 동사로도 명사로도 해석 가능한 단어가 있는 경우에는 명사의 해석이 우선

 

이를 위해 수학적 모델로써, 은둔 마르코프 모델(HMM)을 사용한다. 단어/품사에 대한 은둔 마르코프 모델인 경우는 외부에서 관측되는 것은 단어열이지만, 그 안에 내부 상태로서 품사의 천이가 있다고 생각할 수 있다.'은둔'이란 외부에서 보이지 않는 내부 상태가 존재하는 것을 의미한다. HMM의 적용 예를 살펴보자. 아래 그림은
 



그림. 단어/품사의 은둔 마르코프 모델(HMM)

 

Time flies like an arrow

 

라는 문장을 품사 태깅할 때 사용가능한 HMM이다. 위 그림에서 φ는 문두를 가르킨다. 그러면 위 문장을 실제 HMM을 이용해서 어떻게 하는지 단계를 따라 가보자.

 

[1] φ에서 출발해서 최초 단어는 Time이다. 사전을 검색하면 time은 명사(N)이다. ∴ Time/N, HMM 노드 N으로 이동

[2] 다음 단어는 flies, 역시 사전을 찾아보면 날다라는 의미의 동사(V)와 파리라는 의미의 명사(N)가 될 수 있다. 위 HMM의 노드 N 다음에 또 다시 N이 올 확률은 0.38, N 다음에 V가 올 확률은 0.31이다. 쉽게 말하면 품사 태킹을 할 때 N N...일 확률이 N V... 보다는 높다는 것이다. 그럼 flies가 명사로 품사 태깅될까? 그렇지 않다. HMM의 N 노드 안의 확률을 보자. N 노드 안을 보면 flies가 명사일 확률이 상대적으로 낮은 편이다. 그러므로 flies는 동사로 태깅된다. (∴ flies/V, HMM의 노드 V로 이동).

 

단계 [1], [2]처럼 문말까지 처리하면 품사 태킹(tagging)이 완결되는 것이다. 엄밀히 말하면 HMM의 상태 추이(transition) 함수 = 품사 추이의 확률 × 단어가 그 품사일 확률 이다. 수학적으로 표현하면

 

단, C는 품사, w는 단어를 가리킨다. 여기서의 요점은 HMM의 변이 함수가 어렴풋하게, 그리고 느낌으로(^^;) 만들어진 것이 아니고 확률 이론으로부터 수학적으로 이끌어낸 식이라는 것이다.

 

지금까지의 형태소 해석을 정리하면, 사전에 등록되어 있는 항목을 기준으로 어느 단어/품사의 뒤따름이 확률적으로 높은가를 판단하여 문장을 적절히 분해하는 과정이 형태소 해석이며, 보통 자연언어 처리의 제 1단계로 형태소 해석이 처리된다.

출처 : psyOblade
글쓴이 : 싸이오블레이드 원글보기
메모 :

'프로그램' 카테고리의 다른 글

[스크랩] unix linux유용한팁  (0) 2006.06.22
[펌]blocking socket & non blocking socket  (0) 2006.05.31
kernel panic  (0) 2006.04.06
DEAMON(데몬)으로 실행중인 목록 보기  (0) 2006.04.04
maxsort (qsort 소트보다 빠른)  (0) 2006.04.03