참조 : http://parkcu.com/blog/probabilistic-latent-semantic-analysis/
Probabilistic Latent Semantic Analysis, PLSA
| June 12, 2013 12:22 pm |
| Categories : Concepts and Techniques, Data Science |
Topic model
문서들의 집합에서 topic들을 찾아내기 위한 모델로, 눈에 보이는 observation, 즉, given data에 대해 통계적인 방법을 사용하여 모델을 생성하고, 새로운 데이터에 대해서 해당 모델을 적용시켜 원하는 문제를 해결한다.
위에 그림에서 power라는 단어는 정치 토픽으로 쓰여 “국력”을 나타내는 것을 확인할 수 있다. 하지만 power라는 단어만 떼어 놓고 봤을 때, 사람과 관련해서 체력, 지구력 등을 나타낼 때 쓰일 수 있고, 과학에서는 중력, 구심력을 나타내는 표현에 쓰일 수 있고, 수학에서는 지수승을 의미하는 단어로 쓰일 수 있을 것이다. 이렇게 토픽 모델은 문서 내에 특정 단어가 어떤 의미로 쓰였는지 구분해주는 모델이다.
토픽 모델을 사용하면 문서의 내용을 간결하게 나타낼 수 있고, 단어 및 문서 간의 유사도도 평가 가능하다. 그리고 문서 데이터에만 국한되는 것이 아니라 여러 분야에 쓰일 수 있는데, 정보 검색(IR), 인공 지능(AI), 바이오 인포메틱스 등에 다양하게 응용될 수 있다.
Probabilistic Latent Semantic Analysis
PLSA에서는 observation에 영향을 끼치는 latent variable (topic)의 존재를 가정한다. 그리고 아래 그림과 같이 문서-단어 쌍
PLSA 모델에서, asymmetric model로 설명하자면, 문서가 주어지고, 문서마다 다양한 topic을 다룰 수 있으며, 그 토픽에 따라 사용될 단어들이 결정된다. (하나의 문서 내에서 각 단어들은 하나의 topic하고만 연관되어 있음) 다시 말하면, 각 문서들은 여러 topic들의 mixture로 나타나고
Model Fitting with EM Algorithm
EM 알고리즘을 통한 model fitting 과정을 알아보자. 우리의 최종 목표는 주어진 데이터 (observation)에 맞는 모델을 생성하는 것, 즉, observation을 제일 잘 나타내는 확률 분포를 찾는 것인데, 주어진 데이터는 multinomial distribution을 따른다고 가정한다:
Maximization:
Weak Points
PLSA에서 문서
(출처: http://blog.acronym.co.kr/420)
우리가 원하는 이상적인 모델은 green line이다. 하지만 주어진 데이터에 지나치게 맞춰지는 overfitting이 발생하면 모델이 마지막 네 번째 그림에서의 red line처럼 나타날 수 있다. (
Summing Up
Input:
Output: parameters
References
- Hofmann – 1999 – Probabilistic latent semantic analysis
- Hofmann – 1999 – Probabilistic latent semantic indexing
- Popescul et al. – 2001 – Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments
See Also
'Research > ML' 카테고리의 다른 글
Machine Learning (Regularization) (1) | 2014.12.15 |
---|---|
자연어 기계학습의 혁명적 진화 - Word2Vec에 대하여(펌) (0) | 2014.11.20 |
Gradient Descent (0) | 2014.04.18 |
Gaussian Mixture Model (0) | 2013.11.06 |
[링크] 자세한 KMeans 초기값 설정 개념 (0) | 2013.10.28 |