본문 바로가기

Research/ML

Gaussian Mixture Model

관련 중요 단어는, 확률 분포, 확률 밀도 함수, Gaussian 분포,


- 기본적으로 확률 분포는 Gaussian 분포 대응된다.

- 확률 밀도 함수는 특정 구간에 대한 확률 분포를 구하는 것이다. 이는 가우시안 함수의 미분한 것으로 이를 이용하여 특정 구간을 구하게(적분) 된다.

- Gaussian Mixture Model 는 여러개의 확률 분포의 결합이라 할수 있다.

즉, 예를 들어 다음 그림을 모델링 하는 것이다.




여기에서는 3개의 확률 분포가 존재한다. (예를 들어, KMeans의 K=3와 의미가 같다는 것을 의식!!)

따라서, 잘 생각해보면, 3개의 가우시안 확률 식이 존재하는데, 새로운 데이터가 어디에 속하는지 알기 위해서는 가우시안 함수에 파라메터를 구하면 된다. 


이때 적용하는 것이 likelihood (log likelihood)를 이용하고 이를 구하고하하는 파라메터를 편미분(평균, 가중치등) 하여 구하게되는데 최종적으로 최적의 파마레터를 구하는데 있어서 EM 알고리즘을 적용된다.