earticle

논문검색

인공지능/빅데이터

Hierarchical Sentiment Classification for Agglutinative Languages : Enhancing Annotation Consistency with Human-in-the-Loop and Collective Intelligence

원문정보

피드백 루프와 집단 지성을 활용한 교착어를 위한 계층적 감성 분류

Eunhee An, Jungkook An

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

High-quality sentiment analysis datasets are critical for enhancing the performance of natural language processing (NLP) systems, especially for morphologically complex agglutinative languages. This study aims to improve the consistency and accuracy of sentiment annotation by considering the unique linguistic characteristics of such languages. To this end, we propose a hybrid annotation framework that combines Hierarchical Sentiment Voting (HSV), which organizes sentiment classification into multiple levels, with a Human-in-the-Loop (HITL) mechanism that selectively applies human validation to low-confidence annotations. The study focuses on agglutinative languages, including Korean, and constructs a dataset of over 1.5 million text samples collected from various online sources such as product reviews, movie critiques, and community comments. Experimental results show that the proposed method significantly improves inter-annotator agreement and model performance, particularly in contexts requiring fine-grained sentiment distinctions. This research empirically demonstrates the importance of structured, human-refined annotation for building reliable sentiment datasets in agglutinative languages and presents a practical framework that can support the development of accurate sentiment analysis models.

한국어

고품질 감성 분석 데이터셋은 형태론적으로 복잡한 교착어를 포함한 자연어 처리(NLP) 성능 향상에 핵심적이다. 본 연구는 이러한 언어적 특성을 고려하여 감성 주석의 일관성과 정확성을 향상시키기 위한 목적을 가진다. 이를 위해 감성 분류 를 다단계로 구성하는 계층적 감성 분류(Hierarchical Sentiment Voting, HSV) 방식과 불확실성이 높은 주석에 인간 검토 를 추가하는 인간 개입 기반(Human-in-the-Loop, HITL) 프레임워크를 결합한 하이브리드 주석 방식을 제안한다. 연구 범 위는 한국어를 포함한 교착어에 집중되며, 다양한 온라인 데이터(상품 후기, 영화 리뷰, 커뮤니티 댓글 등)로부터 150만 건 이 상의 텍스트를 수집하여 데이터셋을 구축하였다. 실험 결과, 제안된 방법은 주석자 간 일치도와 감성 분류 모델의 성능을 모 두 향상시켰으며, 특히 미세한 감성 차이를 요구하는 문맥에서 높은 안정성을 보였다. 본 연구는 교착어 기반 감성 데이터셋 구축에 있어 구조화된 인간 정제 주석이 중요함을 실증적으로 제시하며, 실무적으로는 정확한 감성 분석 모델 개발에 기여할 수 있는 데이터 구축 프레임워크로 활용될 수 있다.

목차

Abstract
요약
1. Introduction
2. Related Work
2.1 Sentiment Analysis Datasets
2.2 Human-in-the-Loop (HITL) for Dataset Enhancement
2.3 Alternative Approaches: Data-Centric Strategies
3. Proposed Methodology
3.1 Dataset Construction Pipeline
3.2 Two-Stage Crowdsourcing-Based HITL Annotation
3.3 Hierarchical Sentiment Classification
3.4 Efficient Labeling through HITL and Hierarchical Sentiment Voting
4. Experimental Results: Data Quality Evaluation
5. Experimental Results: Performance Evaluation
6. Discussion
7. Conclusion
REFERENCES

저자정보

  • Eunhee An 안은희. Student, School of Business, Yonsei University, WhiteScan Inc.
  • Jungkook An 안정국. WhiteScan Inc.

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,500원

      0개의 논문이 장바구니에 담겼습니다.