PLSA

카테고리 없음

PLSA

고요한하늘... 2008. 9. 6. 12:30

Probabilistic Semantic Latent Analysis

EM for Gaussian Mixture

공분산(Covariance) : 공분산(共分散, Covariance)은 확률론과 통계학분야에서 2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

LINK : http://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0

다변량정규분포 - Multivariate Normal Distribution( multivariate Gaussian distribution ) : http://it4lnu.hannam.ac.kr/Book/MDA/dist_mda_wolfpack.pdf

LINK : http://enc.daum.net/dic100/contents.do?query1=20XXX50347

그림 출처 : nlp.korea.ac.kr/new/seminar/2000spring/fsnlp/Chap14_Clustering.ppt

POS(Part of speech) Tagging에서의 EM

Complete data : 문장, 대응하는 태그열

관측 데이터 : 문장

비관측 데이터 : 태그열

모델 : transition/emission 확률 테이블

Synonyms(동의어) : 같은 의미를 가진 모양이 다른 단어

eg > 'car' & 'automobile'

재현율이 작아지는 원인

Polysemys(다의어) : 여러가지 뜻이 있는 단어

eg > 'saturn'

정확률을 낮춘다

Topics과 words 사이의 불일치 문제

LINK : http://www.springerlink.com/content/l5656365840672g8/fulltext.pdf

LINK : http://www2007.org/posters/poster859.pdf

LINK: http://www.dcs.shef.ac.uk/~genevieve/lsa_tutorial.htm

LINK : www.aclweb.org/anthology-new/E/E06/E06-1014.pdf

LINK : http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis

LINK : www.csie.ntu.edu.tw/~b94063/files/PP06.doc

LINK : rakaposhi.eas.asu.edu/cse494/notes/s07-plsa.ppt

LINK : http://bi.snu.ac.kr/Publications/Conferences/Domestic/KISS06F_ChangJH.pdf( Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 )

LINK : http://bi.snu.ac.kr/Publications/Conferences/Domestic/KISS00S_ShinHJ.pdf( 텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습( aspect model ) )

LINK : http://www.cs.bham.ac.uk/~axk/ML_PLSA.ppt

이 글은 스프링노트에서 작성되었습니다.

PLSA의 주 목적은 문서에 있는 토픽 즉 문서의 숨은(Latent) 의미(Semantic)를 찾는 것이다.

그러면 토픽과 단어는 어떤 차이점이 있을까?

단어는 관측이 가능하고 토픽은 관측가능하지 않다. 숨겨져 있다고 볼수 있다.

PLSA는 Aspect model에 기반한 생성모델( generative model )이다.

조건부 독립 가정을 통해서

P(문서) = P( 단어1|문서)P(단어2|문서) .... P(단어n|문서 )라고 할수 있다.

= πP(단어n|문서) ( 1 .. n까지 )

일반적으로 latent variables(토픽)은 문서보다 적은 수이다. 다시 말하면 하나의 토픽을 공유하는 1개 이상의 문서가 있을수 있다.

P( 문서, 단어 ) = P(문서)P(단어|문서) 이고

P( 단어|문서 ) = Σ P(단어|토픽)P(토픽|문서) 이다.

조건부 독립을 가정하는데 문서와 단어는 주어진 TOPIC Z에 독립이다.

그래서

P( 문서, 단어 ) = Σ P(토픽)P(문서|토픽)P(단어|토픽) { P(토픽|문서) = P(토픽)P(문서|토픽)/P(문서) }

구현방법

먼저 P1배과 P2배열을 [0-1]의 값으로 초기화 한다. 그리고 그들의 가로의 합이 1이 되도록 normalise시킨다.

수렴할때지 아래와 같은 수식을 계속 실행한다.
문서= 1부터 N까지

단어 = 1부터 T까지

토픽 = 1부터 K까지

P(단어|토픽) = P1이고 P(토픽|문서) = P2이다