원문정보
Imbalanced Dataset training techniques with Hard negative mining and Sample Selection
초록
한국어
일반적으로 Object Detection을 수행하는 경우에서 객체가 있는 전경(Foreground)보다, 객체가 없 는 Background 영역이 더 많다. 이 문제는 객체의 클래스 불균형 문제를 일으키기 때문에 불균형한 학습으로 이루어질 수 있다. Classification의 경우에도 마찬가지이다. 한가지 클래스에 치우친 데이터 세트나, 불균형한 분포를 이루는 데이터 세트를 Imbalanced Dataset 이라고 하는데 불균형한 데이터 세트는 성능과 학습 과정에 치명적인 영향을 미치기 때문에 균형 잡힌 데이터 세트를 만드는 것은 상 당히 중요한 문제이다. 불균형한 문제를 해결하기 위해 Sample Selection 기법의 하나인, Hard Negative Mining 방법을 적용하고, 데이터를 비율에 맞게 추출하기 위해 K-Means Clustering 기법을 적용한다. 본 논문에서 소개되는 COVID-Net은 COVID-19에 대한 양성, 음성을 결정하는 Classification Network이지만, COVID-19의 데이터 세트는 전체 데이터의 약 25.2%만 차지하는 불균 형한 데이터 세트로 이루어져 있다. COVID-Net의 불균형한 데이터 세트로 인해 상대적으로 높은 COVID-19의 False Positive를 보여준다. 데이터 세트 이미지 클래스의 적절한 분포는 COVID-Net의 향상된 성능을 도출하기 때문에 Hard Negative Mining을 사용하여 균형 데이터 세트를 생성하여 Fine tuning을 실시하여 COVID-19 클래스의 더 높은 정확도를 보장하여 범유행 상황에서 임상의에 게 더욱 빠른 대처를 할 수 있게 해준다.
목차
1. Introduction
2. Methods
2.1. Positive 예측에 대한 Sample Selection
2.2. Negative 예측에 대한 Sample Selection
2.3. Balanced Sample Selection
3. Experiments
3.1. Experimental setup
3.2. Experimental result
4. Conclusions
Acknowledgement
References