원문정보
Trends in Deep Learning-based Medical Optical Character Recognition
초록
영어
Optical Character Recognition is the technology that recognizes text in images and converts them into digital format. Deep learning-based OCR is being used in many industries with large quantities of recorded data due to its high recognition performance. To improve medical services, deep learning-based OCR was actively introduced by the medical industry. In this paper, we discussed trends in OCR engines and medical OCR and provided a roadmap for development of medical OCR. By using natural language processing on detected text data, current medical OCR has improved its recognition performance. However, there are limits to the recognition performance, especially for non-standard handwriting and modified text. To develop advanced medical OCR, databaseization of medical data, image pre-processing, and natural language processing are necessary.
한국어
광학 문자 인식(Optical Character Recognition, OCR)은 이미지 내의 문자를 인식하여 디지털 포맷(Digital Format)의 텍스트로 변환하는 기술이다. 딥러닝(Deep Learning) 기반의 OCR이 높은 인식률을 보여줌에 따라 대량 의 기록 자료를 보유한 많은 산업 분야에서 OCR을 활용하고 있다. 특히, 의료 산업 분야는 의료 서비스 향상을 위해 딥러닝 기반의 OCR을 적극 도입하였다. 본 논문에서는 딥러닝 기반 OCR 엔진(Engine) 및 의료 데이터에 특화된 OCR의 동향을 살펴보고, 의료 OCR의 발전 방향에 대해 제시한다. 현재의 의료 OCR은 검출한 문자 데이터를 자연 어 처리(Natural Language Processing, NLP)하여 인식률을 개선하였다. 그러나, 정형화되지 않은 손글씨 (Handwriting)나 변형된 문자에서는 여전히 인식 정확도에 한계를 보였다. 의료 데이터의 데이터베이스(Database)화, 이미지 전처리(Pre-processing), 특화된 자연어 처리를 통해 더욱 고도화된 의료 OCR을 발전시키는 것이 필요하다.
목차
Abstract
Ⅰ. 서론
Ⅱ. OCR 엔진 및 서비스
1. Tesseract OCR
2. Easy OCR
3. docTR OCR
4. Keras OCR
5. Naver Clova OCR
6. Google Cloud Vision API
Ⅲ. 의료 OCR 기술
Ⅳ. 결론
References