earticle

논문검색

한국어 표 질의응답 성능 향상을 위한 데이터 전처리 기법 분석

원문정보

Analyzing the Effects of Table Preprocessing Methods on Korean Question-Answering Performance

배한나, 원상혁, 이재홍, 정우혁, 우지환

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Table-based Question Answering (Table QA) is a task that provides answers to natural language questions using tabular data, where data preprocessing significantly impacts performance. This study constructs a Korean-language complex table QA dataset and systematically analyzes the effects of various data representation formats (HTML, Markdown, Text, and Numpy) on model performance. Experimental results show that the optimal data representation varies depending on the structural characteristics of the table: Numpy format performs best for simple tables, Text for merged tables, and HTML for composite tables. A general trend of performance degradation is observed as table complexity increases. By proposing optimal data representations tailored to table structures, this research offers practical directions to improve the performance and efficiency of table QA systems. The findings are expected to enhance the reliability and accuracy of data-driven decision-making in real-world applications such as public data utilization, enterprise data analysis, and real-time customer support systems. Furthermore, this study presents a novel preprocessing approach to improve Korean Table QA performance and is significant in its systematic analysis of how table structure and data representation affect QA outcomes.

한국어

표 기반 질의응답(Table QA)은 자연어 질문에 대해 표 데이터를 활용해 답변을 제공하는 작업으로, 데이터 전처리 방식이 성능에 큰 영향을 미친다. 본 연구는 한국어 기반 복잡한 표 질의응답 데이터셋을 구축하고, 다양한 데이터 표현 방식(HTML, Markdown, Text, Numpy)이 성능에 미치는 영향을 체계적으로 분석하였다. 실험 결과, 표의 구조적 특성에 따라 최적의 데이터 표현 방식이 상이하게 나타났다. 기본표에서는 Numpy, 병합표에서는 Text, 조합표에서는 HTML 형식이 가장 높은 성능을 보였으며, 표의 복잡성이 증가할수록 성능이 저하되는 경향이 확인되었다. 본 연구는 표의 구조적 특성에 따른 최적의 데이터 표현 방식을 제안함으로써, 표 기반 질의응답 시스템의 성능을 개선하고 데이터 처리의 효율성을 높이는 실질적 방향성을 제시한다. 이는 공공 데이터 활용, 기업 데이터 분석, 사용자 질문에 실시간으로 답변하는 고객 지원 시스템 등 다양한 실무 환경에서 데이터 중심 의사결정의 신뢰성과 정확성을 높이는 데 기여할 것으로 기대된다. 또한, 한국어 표 기반 질의응답 성능을 개선하기 위한 새로운 데이터 전처리 접근법을 제시하였으며, 표의 구조적 특성과 데이터 표현 방식이 질의응답 성능에 미치는 영향을 체계적으로 분석했다는 점에서 의의를 가진다.

목차

요약
Ⅰ. 서론
Ⅱ. 문헌 연구
2.1 표 질의응답
2.2 복잡한 표 질의응답
2.3 표의 표현 방식
Ⅲ. 연구 방법
3.1 개략도
3.2 데이터 수집 및 전처리
3.3 데이터 표현 방식 변환
3.4 모델 적용
3.5 성능 평가
Ⅳ. 실험 및 결과
4.1 기본표 데이터셋
4.2 병합표 데이터셋
4.3 조합표 데이터셋
4.4 종합적인 성능 비교
V. 결론
5.1 실무적 시사점 및 학술적 기여
5.2 한계 및 향후 연구 방향
참고문헌
Abstract

저자정보

  • 배한나 Hanna Bae. 한국과학기술원 석사과정
  • 원상혁 Sang-Huck Won. CJ올리브네트웍스 AI연구소 연구원
  • 이재홍 Jae-Hong Lee. CJ올리브네트웍스 AI연구소 연구원
  • 정우혁 Woo-Hyuk Jung. CJ올리브네트웍스 AI연구소 연구원
  • 우지환 Jihwan Woo. AWS Sr. Specialist Partner SA AI/ML

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 5,100원

      0개의 논문이 장바구니에 담겼습니다.