원문정보
Proposal of Part-mix Augmentation Technique and NKB Loss Function for Improving Keyword Spotting Performance in Noisy Shipyard
초록
영어
Recent advancements in deep learning-based speech recognition technology have led to the development of services using user speech. However, applying this technology to shipyards involves overcoming challenges such as diverse and irregular noise, communication interruptions, and hardware costs. Due to the shipbuilding environment, with numerous steel structures and communication shadow zones, there is a need for small, standalone speech recognition models mounted on worker equipment, rather than large-scale server-based models. This study proposes two techniques—Part-mix augmentation and the NKB (Noise-Keyword Balancing) loss function—that jointly address misrecognition caused by mixed operational noise and partial speech from conversations. Together, these techniques overcome challenges arising from data imbalance between abundant noise and limited keyword data by adjusting the loss distribution based on data properties, significantly improving speech recognition performance in complex noise environments.
한국어
최근 딥러닝 기반 음성 인식 기술의 발전으로 사용자 발화를 이용한 서비스 개발이 활발하다. 하지만 음성 인식 기술을 조선소에 적용하기 위해서 현장 소음의 다양성과 불규칙성, 통신 장애, 하드웨어 비용 등의 제약조건이 존재한다. 또한, 다수의 철 구조물이 존재하고 통신 음영구역에서 작업이 진행되는 조선업 특성상 서버에서 동작하는 대규모 음성 인식 모델이 아닌 작업자 장비에 부착된 소형 모듈에 탑재하여 독립적으로 동작하는 소형 음성 인식 모델에 관한 연구가 필요하다. 본 연구에서는 조선소에서 활용할 수 있는 소형 음성 인식 모델을 학습하기 위한 Part-mix 증강기법과 NKB(Noise-Keyword Balancing) 손실함수라는 두 가지 기법을 제시한다. 이를 통해, 작업 소음과 작업자 간 대화가 섞여 발생하는 부분음으로 인한 오인식 문제를 극복하고 다수 소음 데이터, 소수 키워드 데이터의 불균형으로 발생하는 성능 저하 문제를 데이터 분포에 따른 Loss 조정으로 이를 개선한다.
목차
ABSTRACT
I. 서론
II. 관련 연구
III. 본론
1. 학습 데이터
2. 데이터 전처리
3. Part-mix 데이터 증강기법
4. 제안하는 손실함수
5. 딥러닝 모델
IV. 실험 결과
V. 결론
Acknowledgement
References
