

인공지능 학습용 데이터 품질에 대한 연구 : 퍼지셋 질적비교분석


A Study on the Artificial Intelligence (AI) Training Data Quality : Fuzzy-set Qualitative Comparative Analysis (fsQCA) Approach

오현목, 이서연, 장영훈

This study is empirical research to enhance understanding of AI (artificial intelligence) training data project in South Korea. It primarily focuses on the various concerns regarding data quality from policy-executing institutions, data construction companies, and organizations utilizing AI training data to develop the most reliable algorithm for society. For academic contribution, this study suggests a theoretical foundation and research model for understanding AI training data quality and its antecedents, as well as the unique data and ethical aspects of AI. For this purpose, this study proposes a research model with important antecedents related to AI training data quality, such as data attribute factors, data building environmental factors, and data type-related factors. The study collects 393 sample data from actual practitioners and personnel from companies building artificial intelligence training data and companies developing artificial intelligence services. Data analysis was conducted through Fuzzy Set Qualitative Comparative Analysis (fsQCA) and Artificial Neural Network analysis (ANN), presenting academic and practical implications related to the quality of AI training data.


본 연구는 한국의 인공지능 학습용 데이터 구축 사업과 데이터의 공공 개방에 관한 정책 수행 기관, 데이터 구축 기업, 그리고 이를 활용하는 다양한 기관의 데이터 품질에 대해 이해를 제고하고, 신뢰할 수 있는 인공지능 알고리즘 개발에 있어 가장 중요한 학습용 데이터 품질에 대한 이론적 토대를 만들기 위한 실증적 연구이다. 이를 위해, 데이터의 속성 요인, 데이터 구축환경 요인, 데이터 타입 관련 요인 등 인공지능 학습용 데이터 품질과 관련된 중요 선행요인을 도입하여 이론적 모형을 제안한다. 본 연구는 393명의 인공지능 학습용 데이터 구축 기업과 인공지능 서비스 개발 기업의 실무 담당자를 대상으로 설문조사를 실시하여 데이터를 수집하였다. 데이터 분석은 퍼지셋 질적비교분석 방법과 인공신경망 분석을 통해 이루어졌으며, 분석 결과를 통해 인공지능 학습용 데이터 관련 학술적 및 실무적 시사점을 도출했다.


Ⅰ. 서론
Ⅱ. 문헌 연구
2.1 인공지능 학습용 데이터 정책
2.2 인공지능 학습용 데이터의 특성과 구축과정
2.3 인공지능 데이터 품질 및 데이터 특성조건
2.4 데이터 구축환경 조건
2.5 데이터 타입 조건
Ⅲ. 예비 조사: 전문가 인터뷰 결과
Ⅳ. 연구 방법
4.1 연구방법론 및 측정 도구 개발
4.2 데이터 수집
4.3 눈금매기기
Ⅴ. 데이터 분석 및 결과
5.1 기초 데이터 분석
5.2 퍼지셋 분석 결과
5.3 사후분석-인공신경망 분석(ANN)
Ⅵ. 결론과 시사점
 측정 변수 및 항목
 데이터/정보 품질에 대한 문헌 조사


  • 오현목 Hyunmok Oh. 한국지능정보사회진흥원 수석연구원
  • 이서연 Seoyoun Lee. 북경이공대학교 관리경제학원 박사과정
  • 장영훈 Younghoon Chang. 노팅엄대학교 닝보캠퍼스 상학원 교수


