earticle

논문검색

음악 감성과 장르 자동 분류를 위한 데이터셋 구축과 평가

원문정보

Generation and Evaluation of a Dataset for Automatic Music Emotion and Genre Classification

김종화

초록

영어

Reliable and refined metadata are required for efficient search of rapidly increasing music files. In particular, since the main motive for listening to music is to obtain emotional effects such as mood change and memories, emotion classification along with genre classification of music is very important. However, as in all emotion-related applications, the accuracy of emotion recognition is crucial because when a classification or recommendation that does not fit the user's emotion is given, the result will cause greater user's antipathy and disappointment compared to other errors. In addition to traditional machine learning models, various deep neural network models have recently been applied and many research results have been reported. However, the accuracy of the models is inevitably limited to the dataset used, and benchmark datasets for generalized performance evaluation have not yet been reported. In this paper, as an initial approach towards a “ground-truth” dataset for music emotion and genre classification, we constructed a dataset through labeling of a large number of ordinary people rather than a small number of labellers and extracted features according to MPEG-7 audio standard. Different machine learning models based on statistics and artificial neural network are applied to automatically classify the datasets and we evaluated the suitability of the datasets through the classification results.

한국어

급격하게 증가하는 음악화일의 효율적인 검색을 위해서는 신뢰있고 세분화 된 메타데이터가 요구된다. 특히, 음악을 듣는 주요 동기가 기분전환, 추억 등의 감성적 효과를 얻기 위함이므로 음악의 장르적 분류와 함께 감성적 분류도 매우 중요하다. 하지만 모든 감성 관련 응용에서 그렇듯이 사용자의 감성에 맞지 않는 분류나 추천을 주었을 때 그 결과는 다른 오류에 비교하여 더 큰 사용자의 반감과 실망을 초래하기에 감정인식의 정확도는 결정적이다. 전통적인 기계학습 모델에 더하여 최근에는 다양한 심층신경망 모델이 적용되면서 많은 연구 결과들이 보고되고 있다. 하지만 그 모델들의 정확도는 사용된 데이터셋에 제한적일 수 밖에 없고 일반화된 성능평가를 위한 벤치마크 데이터셋에 대 한 보고는 아직 없다. 본 논문에서는 음악 감성과 장르 분류를 위한 표준 데이터셋 구축을 위하여 소수 전문가가 아 닌 다수 일반인의 온라인 라벨링을 통하여 데이터셋을 구축하고, MPEG-7 오디오 표준에 따르는 특징값들을 추출 하였으며, 통계 및 인공신경망 기반의 다양한 기계학습 모델을 적용하여 자동 분류를 수행하고, 그 결과를 통해 제 안된 데이터셋의 적합성을 평가한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 음악 장르 분류
2.2 음악 감정 분류
3. 감성 장르 데이터셋 구축
4. 분류 및 평가
4.1 특징값 추출
4.2 분류
4.3 분류 결과
5. 결론
참고문헌

저자정보

  • 김종화 Jonghwa Kim. 제주한라대학교 인공지능공학과

참고문헌

자료제공 : 네이버학술정보

    0개의 논문이 장바구니에 담겼습니다.