원문정보
Lightweight Image Inpainting with Wavelet-enhanced Transformer
초록
한국어
이미지 인페인팅은 손상되거나 가려진 영역을 시각적으로 자연스럽게 복원하는 데 사용되는 핵심 기술이다. 초기 인페인팅 연구는 패치 기반 기법이나 텍스처 합성 방식에 의존했으나, 최근에는 GAN, Auto-Encoder, Transformer 기반의 딥러닝 모델이 도입되며 큰 성능 향상을 이루었다. 그러나 이 러한 모델들은 높은 복원 품질을 달성하기 위해 복잡한 네트워크 구조와 다단계 추론이 필요하며, 이 로 인해 과도한 연산 자원이 요구된다는 한계가 존재한다. 본 논문에서는 연산 효율성과 복원 성능의 균형을 달성하기 위해, 경량 인페인팅 모델인 WavePaint를 개선한 WaveSwin-Paint모델을 제안한 다. 제안하는 모델은 Wavelet 기반 다중 주파수 표현의 효율성과 Swin Transformer의 지역-전역적 문맥 이해 능력을 결합하여, 경량 구조하에서도 고품질의 복원 결과를 보여준다. 특히, Wavelet 변환 의 이미지 특성 추출 능력을 극대화하여 분해된 주파수 대역에 대해 Swin Attention을 적용함으로써, 세부 텍스처와 전체 구조의 복원 성능을 동시에 향상시킨다. 제안한 모델은 기존 인페인팅 모델 대비 파라미터 수를 크게 줄이면서도, 다양한 마스크 유형과 복잡한 이미지 상황에서도 강인한 성능을 보인다.
목차
1. 서론
2. 관련 연구
3. WaveSwin-Paint 제안 모델
3.1. 자동 마스크 라벨 생성
3.2. Swin Transformer 적용
3.3. 결합 손실 함수
4. 실험 방법 및 결과
4.1. 데이터셋
4.2. 평가 지표
4.3 실험결과
5. 결론
Acknowledgement
참고문헌
