원문정보
Multiple Feature Fusion for Speaker Recognition from Limited-bandwidth Speech
초록
영어
Speaker recognition technology identifies individuals independently of the speech content based on their unique voice characteristics, such as timbre, pitch, formants, and prosody. These vocal traits are leveraged to reliably authenticate or differentiate between speakers in various applications, offering a robust approach to secure and efficient identity verification. This technology aims to determine whether a voice belongs to a registered speaker, especially in cases where fraudulent activities are common, such as voice phishing. Typically, speaker recognition models are trained on datasets such as VoxCeleb, which are sampled at 16 kHz. However, phone communication often involves a lower sampling rate, specifically 8 kHz. To ensure robust speaker recognition in these environments, it is necessary to develop models that can function effectively even with limitedbandwidth speech data. In this study, we aim to mitigate the degradation in the performance of speaker recognition systems for limited-bandwidth speech by extracting and combining various speech features. Specifically, we extract multiple spectrogram forms(vanilla, mel, linear, and MFCC), as well as features such as the constant Q-transform(CQT) and the CCTZ set, which includes chroma, contrast, tonnetz, and the zero-crossing rate. These features are fused in various configurations to enhance the robustness of the model. The experimental results reveal that the fusion of multiple features outperforms the use of single features alone. Moreover, we observed an approximate 0.65% improvement in the equal error rate(EER) when the model trained on 16 kHz data was tested on 8 kHz speech compared to its performance without such feature combinations. These findings highlight the effectiveness of feature fusion for enhancing speaker recognition for limited-bandwidth speech in real-world telecommunication environments.
한국어
화자 인식 기술은 음성의 내용과 무관하게 음색, 피치, 포먼트, 운율 등 각 개인의 고유한 음성 특성을 기반으로 사 람을 식별하는 기술이다. 이러한 음성 특성들은 다양한 분야에서 화자를 인증하거나 구별하는 데 효과적으로 활용될 수 있으며, 특히 보이스피싱과 같은 사기 행위가 빈번히 발생하는 분야에서 신뢰성 높은 개인 인증을 제공한다. 일 반적으로 화자 인식 모델은 16 kHz로 샘플링된 VoxCeleb와 같은 데이터셋으로 학습된다. 그러나 실제 전화 통신 환경에서는 주로 8 kHz의 낮은 샘플링 레이트를 사용하는 제한대역 음성이 사용되므로, 이러한 환경에서도 성능 저하 없이 작동 가능한 화자 인식 모델 개발이 필수적이다. 본 논문에서는 제한대역 음성 환경에서 화자 인식 시스템 의 성능 저하를 완화하기 위해 다양한 음성 특징을 추출하고 결합하는 방법을 제안한다. 구체적으로 기본 스펙트로그 램, 멜 스펙트로그램, 선형 스펙트로그램, MFCC와 같은 다양한 스펙트로그램 특징과 상수-Q 변환(Constant-Q Transform, CQT), 그리고 크로마(chroma), 대비(contrast), 톤네츠(tonnetz), 영교차율(zero-crossing rate)을 포함한 CCTZ 특징 세트를 추출하였다. 실험에서는 다양한 조합으로 이 특징들을 융합하여 모델의 강인성 을 향상시키고자 하였다. 실험 결과, 여러 특징들을 융합한 모델이 단일 특징을 사용한 모델보다 우수한 성능을 보 였으며, 특히 16 kHz에서 훈련된 모델을 8 kHz 음성 데이터로 평가했을 때, 특징 융합을 하지 않은 경우 대비 약 0.65%의 등오류율(Equal Error Rate, EER) 개선 효과가 나타났다. 이와 같은 결과는 실제 전화 통신 환경에서 제한대역 음성에 대한 화자 인식 성능을 향상시키는 데 있어서 다중 특징 융합이 매우 효과적임을 시사한다.
목차
Abstract
1. Introduction
2. Feature Extraction and Fusion forSpeaker Recognition from Limited-bandwidthSpeech
2.1 Spectrogram, Mel Spectrogram, Linear Spectrogram, and MFCC
2.2 Constant Q Transform
2.3 Chroma, Contrast, Tonnetz, and Zero-Crossing Rate
2.4 Proposed Framework for SpeakerRecognition from Limited-bandwidth Speech
3. Performance Experiment
4. Conclusions
Acknowledgement
References
