수기 운송장 인식용 한글 OCR 학습 데이터세트 구축에 관한 연구

신성인; 서홍일; 서동환

한국어

최근 인공지능을 이용한 이미지 혹은 영상 분석을 위해 컴퓨터 비전 분야에 관한 연구가 폭발적인 관심을 받고 있 다. 컴퓨터의 사용이 많아지면서 이미지 파일로 존재하는 문자를 수정 가능한 텍스트 형태로 바꾸기 위한 인공지능 기 반 시스템의 개발 필요성이 대두되었는데, 특히 종이 문서를 디지털 문서로 변환하는 작업을 무인화할 수 있는 시스템 의 핵심적인 기술인 광학 문자 인식 기술(Optical Character Recognition, OCR)은 높은 인식률과 성능으로 차량 번호 판 인식, 신분증 인식, 신용카드 인식 등 다양한 플랫폼에서 활용되고 있다. 인쇄체에 대한 OCR 기술은 많은 연구가 이루어지고 있으나 최근 코로나로 인해 시장 규모가 폭발적으로 성장한 물류 운송 플랫폼에서 주로 사용되는 필기체 의 문자 인식 기술은 그렇지 못하다. 영문 필기체 인식률이 높은 정확도를 보인다는 것에 비해 한글 필기체 인식률은 더 낮은 정확도를 보였는데, 한글 데이터의 가짓수가 적고, 한글 구조의 복잡성으로 인해 한글 필기체의 학습이 더욱 어렵기 때문이다. 영문은 대, 소문자를 합쳐 총 52개의 문자를 분류하면 되지만, 한글의 경우 자음과 모음으로 음절이 구성되어 총 분류가 필요한 문자의 수가 11,172개로 분류 난이도가 매우 높다는 단점이 있고 이 때문에 학습이 어렵 다. 이러한 단점을 해결하기 위해 분류할 문자의 수를 줄여 학습의 난이도를 낮추는 것이 필수적이다. 따라서 한글의 구조적 특성을 이용하여 인식 단위를 자음, 모음 단위로 한정하여 분류하는 모델을 구성한다면 분류해야 할 문자의 수 가 초성 19개, 중성 21개, 종성 20개로 총 60개로 줄일 수 있어 학습의 난이도를 낮추고 정확도를 높일 수 있을 것이 다. 그러나 자음, 모음 인식 모델에 적용할 오픈된 한글의 자음, 모음 데이터세트는 없었으며, 비슷한 문제를 해결하기 위한 데이터세트도 존재하지 않았다. 또한, 오픈된 많은 한글 음절 단위의 데이터세트조차 본 연구에서 해결하려 하는 수기 운송장 인식 문제와 관련성이 없는 특징들이 내재 되어있는 경우들이 빈번했다. 따라서 현재 해결하려고 하는 문 제에 맞춰 직접 원하는 방법으로 데이터세트를 구축하여 수기 운송장 인식 문제를 해결하고자 한다. 본 연구에서는 수기 운송장 내 문자들을 인식하기 위한 학습용 데이터세트 구축 방법을 제안한다. 제안하는 데이터 세트의 구성은 기존의 한글 OCR 데이터세트처럼 음절 단위로만 구성된 것이 아닌, 자음, 모음 단위의 데이터로 이루 어진다. 이는 분류하여야 할 문자의 수를 60개까지 획기적으로 줄임으로써 학습모델의 정확도를 높일 수 있을 것이다. 또한, 딥러닝 기반 CNN(Convolutional Neural Networks)로 구성된 기존 OCR 모델에 제안하는 샘플 데이터세트를 적 용하여 적절성 여부를 판단하였다. 추후 연구인 한글의 자음, 모음 단위 인식 모델과 기존 한글 OCR 모델을 결합하여 한글 필기체 인식률을 향상시키는 알고리즘에 관한 연구에 기반이 되는 데이터세트로 활용할 가능성을 확인하였다.

earticle

수기 운송장 인식용 한글 OCR 학습 데이터세트 구축에 관한 연구

원문정보

초록

저자정보

참고문헌

함께 이용한 논문