원문정보
Building a Generative Fairy Tale System Using a Novel Korean Finger-Spelling to Syllable Conversion Algorithm
초록
영어
This study proposes a system that combines real-time fingerspelling recognition with a large language model (LLM) to convert sign language input into Korean sentences and automatically generate illustrated story videos. The system includes hand landmark extraction using MediaPipe, a jamo combination algorithm for syllable formation, sentence generation with GPT-4o, illustration generation with DALL·E, and video rendering. The proposed pipeline successfully generated grammatically and semantically natural Korean sentences from sign language input, while the produced images maintained contextual consistency. The final illustrated story videos, integrated with subtitles and audio, demonstrated potential as educational and cultural content accessible to both deaf and hearing users. This study lays the groundwork for extending sign language beyond a simple communication tool into a medium for creative expression and storytelling.
한국어
본 연구는 실시간 지문자 인식과 대규모 언어 모델(LLM)을 결합하여 수어 입력을 한글 문장으로 변환하 고 그림 동화 영상으로 자동 생성하는 시스템을 제안한다. 시스템은 MediaPipe를 활용한 손 랜드마크 추출, 자모 결합 알고리즘, GPT-4o를 이용한 문장 생성, DALL·E 기반 삽화 생성 및 영상 렌더링 단계를 포함한다. 제안된 파이프라인은 수어 입력으로부터 문법적·의미적으로 자연스러운 한국어 문장을 생성할 수 있었으며 생성된 이미지 또한 문맥과 일관성을 유지하였다. 최종적으로 제작된 그림 동화 영상은 자막과 음성을 결합하여 청각장애인 및 일반 사용자 모두가 활용 가능한 교육·문화 콘텐츠로서의 가능성을 보여주었다. 본 연구는 수어를 단순한 의사소 통 수단을 넘어 창의적 표현과 스토리텔링의 도구로 확장할 수 있는 기틀을 마련하였다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
2.1 세계 언어 및 문자 현황
2.2 한글의 독보적 구조와 다른 문자와의 비교
2.3 세계 수어 구성 분석 세계 각국 수어현황
2.4 수어 인식 기술 동향
2.5 기존 수어 콘텐츠 및 번역 시스템 현황
Ⅲ. 전체 시스템 구조 설계
3.1 시스템 개요 및 파이프라인
3.2 수어인식 및 초성 추출
3.3 한글 자모 결합 시스템
Ⅳ. 구현 및 실험
4.1 실험 환경 및 모델 설정
4.2 단어 기반 문장 생성 과정
4.3 문장 기반 스토리북 영상 생성
4.4 파이프라인 실험 결과
4.5 향후 계획
V. 결론
REFERENCES
