원문정보
Transformer-based Image Inpainting Approach to Hair Removal in Skin Images : Applicability Evaluation of Existing Methods
초록
영어
Hair removal in skin images is the essential preprocessing task for automatized skin cancer detection. Most existing methods for hair removal are based on image processing, but their performance tends to be significantly degraded in hairy skin images. As an alternative, an image inpainting approach based on deep learning can be taken into account, while few deep learning models for hair removal have been reported due to the lack of datasets. In this paper, we evaluate the applicability of BAT-Fill which is a transformer-based deep learning model as an image inpainting method for hair removal in skin images. BAT-Fill consists of not only the coarse network based on bidirectional autoregressive transformers but also the refinement network based on generative adversarial network (GAN). While a typical process of image inpainting is to progressively fill the inner hidden block using the properties of neighbor pixels, it is challenging to accurately extract the skin properties of neighbor pixels when hairs are largely distributed. The transformer is a solution for reconstructing the skin texture by learning the similarity of pixel properties between two distant areas, where local skin textures can be accurately predicted using global skin properties. The model assessment shows that BAT-Fill is effective to enhance the perceptual quality of the hair-removed image as it exhibits significant improvement in FID although it does not in PSNR and SSIM.
한국어
피부영상에서 털 제거는 자동화된 피부진단을 위한 필수적인 전처리 과정이다. 기존의 털 제거 기법은 대부분 영상 처리에 기반한 방식이었지만, 털이 많은 피부에는 성능이 크게 저하되는 문제점이 있다. 다른 접근방식으로서 심층 학습 모델에 기반한 인페인팅 기법을 고려할 수 있는데, 털이 많은 피부영상 학습 데이터의 부족으로 인하여 심층학 습 기반 털 제거 모델은 거의 보고된 바 없다. 본 논문에서는 피부영상에서 털 제거를 위한 영상 인페인팅 기법으로 서 트랜스포머 기반 심층학습 모델인 BAT-Fill의 적용성을 평가한다. BAT-Fill은 양방향 자기회귀 트랜스포머 (BAT) 기반의 거친 네트워크와 생성적 적대 신경망(GAN) 기반의 정제 네트워크로 구성되어 있다. 인페인팅은 일 반적으로 이웃 픽셀의 특징으로부터 점차적으로 채워가는 방식으로 이루어지는 반면, 가느다란 털이 많이 분포되어 있는 피부에서는 이웃 피부의 특성을 정확하게 추출하기 어렵다. 트랜스포머는 서로 다른 영역 사이의 유사성을 학 습하여 피부를 복원하는 방식으로서, 전역적인 피부 특징으로부터 지역적인 피부 특성을 정확하게 복원하는 것을 가 능하게 한다. 모델에 대한 성능 평가 결과, BAT-Fill이 기존 방법에 비해서 PSNR 및 SSIM에서는 유의미한 차이 가 없었으나 FID에서는 피부영상 털 제거에서 실감성과 인지적 품질이 향상되었음을 보여준다.
목차
Abstract
1. 서론
2. 방법
2.1 BAT-Fill
2.2 ShiftNet 및 DeepFill
2.3 모델 훈련을 위한 마스크 생성
3. 실험 결과
3.1 데이터셋 및 실험 환경
3.2 평가 결과
3.3 Ablation Study
4. 결론
Acknowledgments
참고문헌