본문 바로가기

Lab/동영상 중복 감지 기술

Local Descriptor 기반한 동영상 중복 감지 기술(1)

엔써즈
얼마전에 KT에 인수된 회사입니다. 동영상 중복 감지 시스템으로 유명하죠! 여기에 동영상 중복 시스템을 응용한 기술을 선보였습니다. Image2play라는 기술입니다.

이 기술을 예측하자면, 간단히 말하면 특징점을 뽑아 그 주위에 있는 intensity를 이용(Patch)하여 방향성분/크기등을 추출하여 Feature를 추출합니다.

왜 이런 Feature를 갑자기 꺼낸 이유는? 최근에 어느 세미나에서 예제를 보여주었는데 이때 확신했습니다. 이를 이용하여 동영상을 찾아준다는 것을요! (링크)

이 기술은 사물검색과 거의 동일합니다. 어쩌면 더 쉬울수도 있는데요. 그 이유는 사물검색은 모바일 기반으로 사진을 찍어 검색하지만 Image2Play는 동영상을 캡쳐해서 하기 때문에 거의 노이즈(크기, 조명, 회전)가 없는 상태 즉, 동영상의 이미지 그대로의 이미지가 쿼리로 들어옵니다(동영상에 특화된 다른 의미의 노이즈(자막등등)가 들어올 수 있습니다). 그 세미나에서 배경이 같아서 같은 배경을 지닌 동영상을 찾아주던데요. 음 조금은 오버스펙이라고도 할 수 있다고 생각합니다.

다만, 좀 어려운점은 동영상에서 거의 4~5fps를 추출한다고 할때 이에 대한 Feature를 다 DB에 넣는다는 발상이 대단합니다. 매일 같이 TV 동영상이 생성된다고 볼 때 대단한 것이지요. 더구나 Global한 Feature가 아니라 Local Descriptor라면 말이죠! (최근에 다른 블로그에 따르면 공중파 3사가 그 대상이라고 하네요~)
여기서 제약을 두자면 포탈등의 연예면에 대한 캡쳐 웹 페이지가 최근 것만 본다고 한다면 할만하다고 생각되어지지만 저와같이 서버한대도 귀한 사람에게는 대단하다고 볼수 밖에 없습니다.
아마 이와같은 이유도 KT에 인수되지 않았나? 생각합니다. KT Cloud가 비교적 잘되어 있어서입니다. 거의 맘대로 쓰지 않을까요~

나의 기술
정리하자면, 여기서는 말하고자한 것은 Local Descriptor를 좀 더 단순화하여 적용한다면, 속도/DB 사이즈등을 줄일 수 있지 않을까요? 모 그냥 포톡스 비주얼 엔진을 적용하면 되지만요. 약간의 추출 속도의 용인과 서버만 따라준다면~!

덧붙히자면, 저는 Global Feature를 이용하여 현재 개발중에 있습니다. 다양한 테스트 데이터/상황등을 만들어 실험하고 있습니다. 간단한 성능정도로 나중에 소개하겠습니다.
이후에 저는 Local Descriptor를 더 단순화해서 Image2Play같은 시스템을 만들어 볼셈입니다. 만들어 본 후, 그때 다시 포스트하겠습니다.