초록 열기/닫기 버튼

본 논문은 실시간 보안 시스템을 위한 음향 신호의 위치추적 및 다수의 화자에 의해 동시 발성된 혼합된 음성 신호에서의 화자 수 추정에 관한 연구이다. 음향 신호의 위치 추적은 두개의 저가 사운드카드 및 네개의 콘덴서 마이크로폰을 이용하여 비용적인 측면을 고려하였으며, 시스템의 기하학적 구조와 NCC(Normalized Cross Correlation)을 이용하여 마이크로폰 간의 소리 도달 시간차를 구하는 계산량을 줄였다. 뿐만 아니라 혼합된 음성 신호에서의 화자 수를 추정하기 위하여 순수한 음성신호의 세기 포락선이 4~5Hz주위에 판별 가능한 두드러진 모듈레이션 패턴을 가지고 있다는 성질을 이용하여 화자 수 확인을 위한 음성 특징을 추출하고, 가우시안 혼합 모델(GMM)을 이용하여 화자 수를 추정하였다.


This paper is a study on acoustic signal localization and estimation method of speaker number in mixed speech signals radiated to many speakers for security system. A proposed system of acoustic signal localization has reduced a complexity of calculation on sound arrival time-gap between microphones using geometry structure and NCC(Normalized Cross Correlation). Additionally, we allow for economic terms using two low price sound card and four condenser microphones. And then, sound features is abstracted for confirmation of speaker number using a property (that) it have notable modulation pattern that intensity envelope of purest sound signal can be determined around the 4~5Hz for speaker number estimation in mixed sound signal and we estimate speaker numbers using GMM.