원문정보
초록
영어
This study proposes a multimodal deep learning-based emotion recognition model that integrates speech and text data, and introduces a quality-aware learning framework to enhance classification performance by incorporating data quality into the training process. Speech signals are processed through the extraction of various acoustic features such as MFCC, Chroma, Pitch, and Formant, and modeled using a CNN-BiLSTM architecture. Text data are vectorized using pre-trained BERT embeddings to capture emotional semantics. The two modalities are fused using an intermediate fusion approach, and Cleanlab-based quality scores are included as additional input features to mitigate overfitting caused by variations in data quality. Experiments were conducted on a Korean emotional speech dataset comprising 510,000 utterances. The proposed model achieved an accuracy of 74.0% on the test set, with both macro and weighted average F1-scores reaching 0.74. Analysis of the confusion matrix suggests that similarities in emotional expression and variations in data quality influenced classification results.
한국어
본 연구는 음성 및 텍스트 데이터를 통합한 멀티모달 딥러닝 기반 감정 인식 모델을 설계하고, 학습 데이터의 품질을 반영한 Quality-aware 학습 구조를 제안함으로써 감정 분류 성능의 향상을 도모하였다. 음성 신호는 MFCC, Chroma, Pitch, Formant 등 다양한 음향 특징을 추출하고 CNN-BiLSTM 구조로 처리하였으며, 텍스트는 사전학습된 BERT 임베딩을 통해 정서적 의미를 벡터화하였다. 두 모달리티는 Intermediate Fusion 방식으로 융합되며, Cleanlab 기반의 품질 점수를 입력 feature에 추가하여 데이터 품질 편차에 따른 과적합 문제를 완화하고자 하였다. 총 51만 개의 한국어 감정 발화 데이터를 활용한 실험 결과, 제안한 모델은 테스트 데이터셋에서 정확도 74.0%, macro 및 weighted 평균 F1-score 0.74를 기록하였다. 혼동 행렬 분석 결과는 감정 간 표현 유사성과 데이터 품질의 영향을 시사하였다.
목차
Abstract
1. 서론
1.1 연구 배경 및 필요성
1.2 연구 목적
2. 이론적 배경
2.1 감정 인식의 개요
2.2 음성 기반 감정 분석
2.3 텍스트 기반 감정 분석
2.4 멀티모달 감정 인식
2.5 선행 연구
3. 감정 분석 모델 설계 및 구현
3.1 감정 인식의 개요
3.2 음성 특징 처리 구조
3.3 텍스트 임베딩 처리 구조
3.4 멀티모달 융합 및 분류 구조
4. 실험 결과 및 분석
4.1 실험 환경 및 설정
4.2 학습 및 검증 결과
4.3 테스트 결과 및 분석
5. 결론
REFERENCES
