원문정보
Improving Small-scale Sentiment Analysis through Data Augmentation using Generative Artificial Intelligence
초록
영어
Sentiment analysis has been used as an important research tool not only in information science but also in humanity and social science. In such fields, research is often hampered by the difficulty of collecting large-scale data. Recent generative artificial intelligence provides an opportunity to overcome this difficulty by generating sentences with similar sentiments. In this paper, we showed that generative artificial intelligence could generate proper supporting data and improve the classification performance of sentiment analysis models. Prompts with classes and examples showed the superior data augmentation, and the consequent augmented models had on average 22% and maximally 75% improvements on the prediction accuracy. The results of this study are expected to be useful for small-scale sentiment analysis where collecting large-scale data is not likely to be easily performed.
한국어
감성 분석은 정보과학의 영역을 넘어 인문학이나 사회과학에서도 중요한 연구 도구로 사용되고 있다. 이러한 분야에 서는 대규모 데이터를 확보하는 것이 연구의 어려움으로 종종 나타난다. 최근 주목을 받는 생성형 인공지능은 의미 적으로 유사한 문장을 생성하여 데이터 부족 문제 해결에 대한 기회를 제공한다. 본 논문에서는 생성형 인공지능을 이용하여 데이터를 증강하고 이를 통해 감성 분석의 정확도를 개선할 수 있음을 보였다. 프롬프트를 비교하여 분류 와 예시를 제공하는 형태가 우수한 증강효과를 나타낸다는 것을 보였고, 이를 통해 증강된 모델은 기존에 비하여 평 균 22%, 최고 74%의 성능 향상을 보였다. 본 논문의 결과는 대규모 데이터 수집이 어려운 소규모 감성 분석 연구 에 유용할 것으로 기대된다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 언어 모델
2.2 생성형 인공지능
3. 데이터 및 실험방법
3.1 감정 데이터
3.2 생성 모델을 이용한 데이터 생성
3.3 텍스트 분류 모델
3.4 모델의 성능 측정
4. 실험결과 및 고찰
4.1 기본 모델의 성능
4.2 생성형 인공지능을 이용한 텍스트 생성
4.2 프롬프트 형태에 따른 성능 변화
4.3 증강 비율에 따른 성능 변화
5. 결론
감사의 글
참고문헌
