earticle

논문검색

박물관 AI 해설을 위한 비정형 데이터 자원화 방안 연구

원문정보

Resourceization of Unstructured Data for AI-Based Museum Commentary

홍승연

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This study examines whether regional museums with limited budgets, personnel, and infrastructure can develop low-cost AI commentary systems using only internal unstructured data. After fine-tuning the Korean-specialized small model KoGPT-2 with 10,000 narrative texts from the Incheon Research Institute Humanities Database, we compared schema-template generation and direct model generation on 200 evaluation samples. Evaluation employed both automatic metrics (BLEU, ROUGE-L, METEOR-lite) and rule-based heuristic metrics (named entity agreement, temporal consistency, formal stability). The schema-template approach achieved over tenfold improvement across all automatic evaluation metrics compared to direct model generation, with significant enhancements in factual accuracy, temporal consistency, and formal stability in heuristic metrics. This demonstrates that unstructured texts accumulated by museums can serve as effective AI training resources when combined with lightweight schemas. While existing research presupposes large LLMs and complete datasets, this study demonstrates that practical-level commentary generation is possible with small models and unstructured internal data alone. It also reexamines the strategic value of museums' internal unstructured data and confirms that data archiving strategies are critical determinants of AI utilization capabilities. Study limitations include constraints in evaluation sample size and model scale, and absence of user-centered evaluation. Future research should pursue data expansion, diverse model comparisons, and visitor satisfaction surveys to simultaneously ensure expressive diversity and accuracy.

한국어

본 연구는 예산·인력·인프라가 제약된 지역 박물관이 내부 비정형 데이터만으로 저비용 AI 해설 시스템을 구축할 수 있는지 검증하였다. 인천연구원 인문DB 서 술형 텍스트 10,000건으로 한국어 특화 소형 모델 KoGPT-2를 미세조정한 후, 평가 샘플 200건을 대상으로 스키마-템플릿 생성과 모델 직접생성을 비교하였다. 평가는 자동 지표(BLEU, ROUGE-L, METEOR-lite)와 규칙 기반 휴리스틱 지표(고유명 정합도, 시간 일관성, 형식 안정성)를 병행하였다. 스키마-템플릿 방식은 모델 직접생성 대비 자동 평가 지표 모든 항목에서 10배 이상 개선되었으며, 휴리스틱 지표에서도 사실 정확성, 시간 일관성, 형식 안정성 모두 유의미하게 향상되 었다. 이는 박물관이 축적한 비정형 텍스트가 경량 스키마와 결합될 때 효과적인 AI 학습 자원이 될 수 있음을 실증한다. 본 연구는 기존 연구가 대형 LLM과 완성된 데이터셋을 전제로 한 반면, 소형 모델과 비정형 내부 데이터만으로도 실용 수준의 해설 생성이 가능함을 실증하였다. 또한 박물관 내부 비정형 데이터의 전략적 가치를 재조명하고 데이터 아카이빙 전략이 AI 활용 역량의 핵심 결정 요인임을 확인하였다. 연구의 한계는 평가 샘플 규모와 모델 규모의 제약, 사용자 중심 평가 부재 등이다. 향후 연구는 데이터 규모 확대, 다양한 모델 비교, 관람객 만족도 조사 등을 통해 표현 다양성과 정확성을 동시에 확보하는 방향으로 진행되어야 한다.

목차

요약
Abstract
I. 서론
II. 이론적 배경
1. 생성형 인공지능과 대규모 언어 모델
2. 박물관 데이터 아카이빙의 중요성
3. 자연어 생성 모델의 성능 평가 지표
III. 분석 방법
1. 데이터셋 준비
2. 모델과 학습 설정
3. 평가지표와 절차
IV. 분석결과
1. 실험 설계 및 데이터
2. 자동 평가지표 비교
3. 휴리스틱 평가지표 비교
4. 항목별 생성 사례 비교
5. 종합 해석
V. 결론 및 시사점
참고문헌

저자정보

  • 홍승연 Hong, Seung-Yeon. 인천연구원 전임연구원

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.