t = 5 Term이고 d = 7 documents
D7 = Automatic Information Organization
d1 | d2 | d3 | d4 | d5 | d6 | d7 | DF(document frequency) | IDF | |
information | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 3 | 0.37 |
singular | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 3 | 0.37 |
value | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 3 | 0.37 |
computations | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 2 | 0.54 |
retrieval | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 2 | 0.54 |
information | 0.00 | 0.00 | 0.56 | 0.56 | 0.00 | 0.00 | 1.00 |
singular | 0.49 | 0.71 | 0.00 | 0.00 | 0.00 | 0.71 | 0.00 |
value | 0.49 | 0.71 | 0.00 | 0.00 | 0.00 | 0.71 | 0.00 |
computations | 0.72 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 | 0.00 |
retrieval | 0.00 | 0.00 | 0.83 | 0.83 | 0.00 | 0.00 | 0.00 |
0.00 | 0.75 | 0.00 | -0.66 | 0.00 |
0.65 | 0.00 | -0.28 | 0.00 | -0.71 |
0.65 | 0.00 | -0.28 | 0.00 | 0.71 |
0.39 | 0.00 | 0.92 | 0.00 | 0.00 |
0.00 | 0.66 | 0.00 | 0.75 | 0.00 |
P =
singular Value | Information Retrieval | information | singular | value | computations | retrieval | |
information | 0.00 | 1.00 | 1.00 | 0.00 | 0.00 | 0.00 | 0.00 |
singular | 1.00 | 0.00 | 0.00 | 1.00 | 0.00 | 0.00 | 0.00 |
value | 1.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 | 0.00 |
computations | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 |
retrieval | 0.00 | 1.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 |
P =
0.00 | 0.56 | 1.00 | 0.00 | 0.00 | 0.00 | 0.00 |
0.71 | 0.00 | 0.00 | 1.00 | 0.00 | 0.00 | 0.00 |
0.71 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 | 0.00 |
0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 |
0.00 | 0.83 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 |
M = U^t * P ( Matrix U에서 유의미한 차원까지만 선택한다 )
=
0.82 | 0.00 | 0.00 | 0.65 | 0.65 | 0.39 | 0.00 |
0.00 | 0.97 | 0.75 | 0.00 | 0.00 | 0.00 | 0.66 |
C = Q^t * A =
0.69 | 1.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 |
0.00 | 0.00 | 1.00 | 1.00 | 0.00 | 0.00 | 0.56 |
----------------------------------------------------------------------------------------------
Information Retrieval[ 1.0 ]
[1.00] Introduction to Modern Information Retrieval
[1.00] Linear Algebra for Intelligent Information Retrieval
[0.56] Automatic Information Organization
----------------------------------------------------------------------------------------------
Singular Value[0.95]
[1.00] Software for the Sparse Singular Value Decomposition
[1.00] Singular Value Analysis of Cryptograms
[0.69] Large Scale Singular Value Computations
----------------------------------------------------------------------------------------------
Other Topics
Matrix Computations
http://project.carrot2.org/publications/osinski-2003-lingo.pdf
COMMENT :
Label을 추출하는 가장 손쉬운 방법으로 STC(Suffix Tree Clustering)다. STC는 실행 속도가 빠르고 실행 결과가 직관적이지만 간혹 의미 없는 구를 추출하는 경우가 있어 약점으로 지적되어 왔다. 이를 보완한 방법론중에 SHOC( Semantic Hierarchical online Clustering)라는 것이 있는데 이 방법은 Frequent Phrase를 추출할때 Suffix Tree대신 Suffix Array를 사용하고, 추출된 구를 SVD로 Base cluster를 구축하고 이를 기반으로 Hierarchical하게 클러스터를 생성한다.( SHOC에 대한 논문을 읽어보지 않아서 정확한 방법은 잘 모르겠다 )
LINGO는 SHOC에서 힌트를 얻어 의미 있는 Label을 구별하기 위해 SVD(또는 NMF, LNMF등)로 차원 축소후 Label과 차원 축소된 문서와의 관계를 계산하는 방법을 사용한다.
'알고리즘' 카테고리의 다른 글
라그랑제 승수 ( Lagrange multipliers ) (0) | 2009.09.11 |
---|---|
최대 엔트로피 모델( Maximum Entropy Model ) (0) | 2009.09.04 |
Probabilistic Semantic Latent Analysis (0) | 2009.06.25 |
FP-TREE( Frequent Pattern Tree ) (0) | 2009.06.02 |
NMF 테스트 결과 (0) | 2009.05.28 |