본문 바로가기

가지고 있는 기술/이미지 중복/ 저작권 검색

이미지 중복 감지 및 이미지 저작권 인식



대용량 DB를 처리하는 회사중 가장 골칫거리는 이미지 중복, 광고 관련 스팸 이미지, 음란 이미지가 아닐까쉽다. 이들 처리는 100%처리가 곤란하다는 점이다. 한다고 해도 매우 많은 비용이 들어간다. 대부분 인간의 손을 거친다고 알려져 있다. 이러한 Image Filtering 기술은 매우 귀찮고 그 서비스의 메인이 되는 작업도 아니다. 그렇지만 그 서비스의 질을 높이는데 매우 중요한 작업이다.

이미지 중복 처리에 관한 Always Next Studio 기술
이미지 중복도 종류 별로 나눠서 얘기해야 할 듯하다. 기술적 난이도, 그 계산 비용, 알고리즘등이 다르기 때문이다. 기본적으로 Always Next Studio는 이러한 중복 처리 기술을 가지고 있다.

1. 이미지 완전 중복
완전히 같은 이미지를 말한다. 다만 Format(jpg, gif..), 이미지 크기(용량), 약간의 filter(그레이등)가 가미된 것을 말한다.
포함관계/일부분/심한 filtering/같은 대상 다르게 촬영등은 해당하지 않는다.
사용자가 한 이미지를 Link하거나 참조할때 대부분은 거의 그대로 사용하거나 포멧, 크기정도 변화시켜서 사용하는 예가 많다. 즉, 중복 이미지들을 감지해야겠는데 완전 중복 이미지를 대충 손으로 계산했더니 중복 비율이 90%이고 이것을 매우 빠르고 정확하게 제거하고 싶다!!!!
그러면 Always Next Studio는 아주 단순한 Binary(bit)로 Conversion하는 알고리즘을 가지고 있어서 이를 이용하면 된다! 예를 들면, 한장의 이미지를 하나의 "단어"로 Conversion할 수 있다.
그러면 이 기술은 어떤 이익이 있는가?
즉, 어떠한 계산 없이도 단어로 표현되기 때문에 Distance 계산량이 필요없다. 물론 100%정확도는 아니더래도 98~99%의 정확도를 나타낸다. 또한 Recall과 Precsision은 조절 가능하다.
(예를 들면 Bit 수와 필요하다면 Hamming Distance정도의 계산량으로 가능하다.)
Feature 추출 속도와 Hash Conversion 속도는 매우 빠르고 위에서 설명한 거와 같이 검출 속도도 매우 빠르다.
검색 결과나 대용량 DB에서 완전 중복 이미지 비율이 많이 존재한다면 이 방법은 매우 유리하며 속도 및 데이터 DB 용량을 줄이는데 한 몫할수 있다.

2. 이외의 중복 이미지 처리
이 부분은 좀더 계산량이 많고 위의 완전 중복 이미지를 포함한 부분포함등을 이야기한다. 
이에 대한 알고리즘과 예제는 벌써 이전 포스트에서 보여주었다. 폭톡스 엔진이다. 이 엔진의 응용은 이와 같은 중복 처리에 매우 강력한 엔진이다.

만약 필요한 분이나 회사가 있다면 연락주세요~!