초록 열기/닫기 버튼

본 논문에서는 스팸메일 영상에서 텍스트 영역의 추출을 위한 색상 레이어기반의 알고리즘을 제안한다. CLTE(color layer-based text extraction)는 색상 레이어를 사용하여 영상을 8개로 나눈다. 8개 각각의 영상에서 연결요소를 추출한 후, 연결요소의 크기에 의해서 텍스트 영역과 비텍스트 영역을 분류하고 텍스트 영역을 추출한다. 또한, 추출된 텍스트 영역으로부터 회손된 획 정보를 복구하는 알고리즘을 제안한다. 이진영상내의 한글 문자에는 두 가지 형태의 손상된 획이 존재한다. 첫째 중성 획에 해당하는 ‘ㅣ’ 나 ‘ㅡ’ 등의 획들이 지워지는 경우와, 둘째 초종성 획에 해당하는 ‘ㅁ’이나 ‘ㅇ’이 흑화소로 채워지는 경우가 있다. 제안한 알고리즘은 이러한 두 가지 손상된 획들을 복구해준다. 200개의 스팸메일 영상을 사용한 실험 결과 제안한 알고리즘이 기존의 텍스트 추출 알고리즘보다 10% 이상 우수함을 관측하였다.


In this paper, we propose an algorithm for extracting text regions from spam-mail images using color layer. The CLTE(color layer-based text extraction) divides the input image into eight planes as color layers. It extracts connected components on the eight images, and then classifies them into text regions and non-text regions based on the component sizes. We also propose an algorithm for recovering damaged text strokes from the extracted text image. In the binary image, there are two types of damaged strokes: (1) middle strokes such as ‘ㅣ’ or ‘ㅡ’ are deleted, and (2) the first and/or last strokes such as ‘ㅇ’ or ‘ㅁ’ are filled with black pixels. An experiment with 200 spam-mail images shows that the proposed approach is more accurate than conventional methods by over 10%.