원문정보
초록
영어
This study supports corporate AI Transformation (AX) by designing a document processing platform based on a Vision Language Model (VLM) and implementing a prototype using Qwen2.5VL-7B. The platform employs a three-tier microservice architecture with prompt management and modular components to ensure flexibility and scalability. Experiments showed an average information extraction accuracy of 91.7%, and the system demonstrated practical applicability by handling diverse document formats without predefined templates. This research provides an empirical implementation of a prompt-based VLM architecture that overcomes limitations of OCR technologies, offering academic and practical value as a foundation for document automation across sectors such as finance, logistics, and healthcare.
한국어
본 연구는 기업의 AI Transformation(AX)을 지원하기 위해, Vision Language Model(VLM) 기반 지능 형 문서처리 플랫폼을 설계하고, Qwen2.5VL-7B를 활용한 영수증 처리 프로토타입을 구현하였다. 제안된 플랫폼 은 3-Tier 마이크로서비스 아키텍처를 기반으로, 프롬프트 관리 체계와 기능별 모듈화를 통해 유연하고 확장 가능 한 구조를 구현하였다. 실험 결과, 평균 91.7%의 정보 추출 정확도를 달성하였으며, 사전 템플릿 없이 다양한 문서 형식에 대응 가능한 처리 유연성을 바탕으로 실무 적용 가능성을 입증하였다. 본 연구는 OCR 중심 기술의 한계를 보완하는 프롬프트 기반 VLM 아키텍처를 실증적으로 제시하고, 금융·물류·의료 등 산업 전반에서 적용 가능한 문 서 자동화 기반을 제공하였다는 점에서 학문적·실무적 의의를 갖는다.
목차
Abstract
1. 서론
2. 이론적 배경 및 선행연구
2.1 AX와 지능형 문서처리
2.2 지능형 문서처리를 위한 VLM
2.3 지능형 문서처리 필요성
3. 문서처리 서비스 설계
3.1 문서처리 서비스 개요
3.2 서비스 플랫폼 아키텍처
3.3 Frontend Layer 설계
3.4 Service Layer 설계
3.5 Management Layer 설계
4. 구현
4.1 프로토타입 구현 : 영수증 처리 서비스
4.2 다양한 문서 유형으로 확장
4.3 서비스 구현 시 고려사항
5. 결론
REFERENCES
