원문정보
AI Performance Based On Learning-Data Labeling Accuracy
초록
영어
The study investigates the impact of data quality on the performance of artificial intelligence (AI). To this end, the impact of labeling error levels on the performance of artificial intelligence was compared and analyzed through simulation, taking into account the similarity of data features and the imbalance of class composition. As a result, data with high similarity between characteristic variables were found to be more sensitive to labeling accuracy than data with low similarity between characteristic variables. It was observed that artificial intelligence accuracy tended to decrease rapidly as class imbalance increased. This will serve as the fundamental data for evaluating the quality criteria and conducting related research on artificial intelligence learning data.
한국어
본 연구는 데이터의 품질이 인공지능(AI) 성능에 미치는 영향을 검토한다. 이를 위해, 데이터 특성변수(Feature)의 유사도와 클래스(Class) 구성의 불균형을 고려한 모의실험(Simulation)을 통해 라벨링 오류 수준이 인공지능의 성능에 미치 는 영향을 비교 분석하였다. 그 결과, 특성변수 간 유사성이 높은 데이터에서는 특성 변수 간 유사성이 낮은 데이터에 비해 라 벨링 정확도에 더 민감하게 반응하였으며, 클래스 불균형이 증가함에 따라 인공지능 정확도가 급격히 감소되는 경향을 관찰 하였다. 이는 인공지능 학습데이터의 품질평가 기준 및 관련 연구를 위한 기초자료가 될 것이다.
목차
Abstract
1. 서론
1.1 연구의 필요성
1.2 연구 목적
2. 연구방법
2.1 모의실험(Simulation) 데이터 생성
2.2 인공지능 학습
2.3 모델 성능 평가
2.4 라벨링 오류율 조정
2.5 클래스 불균형
3. 연구결과
3.1 특성변수 분포가 유사한 두 집단 비교
3.2 특성변수 분포가 상이한 두 집단 비교
3.3 클래스 불균형
4. 논의 및 결론
REFERENCES