원문정보
Effective Robustness Enhancement Methodology of Sparse Model Inversion in Data-Free Vision Transformer Compression
초록
영어
Model inversion is a widely used technique in data-free learning, where synthetic inputs are reconstructed from a pretrained model through iterative optimization without access to the original training data. However, when applied to modern Vision Transformers, the high computational cost of the self-attention mechanism poses a significant challenge. Sparse Model Inversion (SMI) has been proposed to improve efficiency by removing non-essential patches. Nevertheless, in the absence of real validation data, the instability of training remains an unresolved issue, as model accuracy becomes uncertain and exhibits high variance. To address this, we propose a method that consistently preserves the quality and diversity of generated images in data-free environments, thereby reducing the standard deviation of accuracy and enhancing model robustness. The proposed Adaptive AEM readjusts the importance after patch removal to promote entropy minimization. Experimental results demonstrate that using images generated by our method reduces the standard deviation of accuracy by up to 72% in data-free quantization and up to 49% in data-free knowledge distillation, compared to previous approaches, leading to significantly more robust models.
한국어
모델 인버전은 원본 학습 데이터 없이, 사전 학습된 모델로부터 반복적인 최적화를 통해 합성 입력을 복원하는 데이 터 없는 학습에서 널리 사용되는 기법이다. 그러나 최신 비전 트랜스포머에 이를 적용할 경우, 고비용의 셀프 어텐 션 메커니즘으로 인해 큰 계산적 부담이 발생하게 된다. 이를 중요하지 않은 패치들을 모두 제거함으로써 효율성을 향상시키는 희소 모델 인버전이 제안되었다. 하지만 데이터가 없는 상황에서 검증 데이터의 부재로 인한 학습 불안 정성의 증폭은 여전히 해결해야 할 문제로 남아 있다. 검증 데이터가 없는 환경에서는 모델의 정확도가 불확실해지 고, 변동성이 커지므로, 모델의 강건성 향상이 필수적이다. 본 논문에서는 데이터 없는 환경에서 생성되는 이미지의 품질과 다양성을 일관되게 유지하여, 정확도에 대한 표준편차를 낮추고 강건성을 향상시키는 방법을 제안한다. 제안 한 Adaptive AEM은 패치 제거 이후의 중요도를 재조정해 엔트로피 최소화를 촉진시킨다. 실험 결과, 제안한 방법 으로 생성된 이미지를 사용하면 이전 방법론에 비해 데이터 없는 양자화에서는 최대 72%, 데이터 없는 지식 증류 에서는 최대 49%까지 정확도의 표준편차를 줄여 모델을 강건하게 만들 수 있음을 입증한다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 데이터 없는 적용(Data-free Applications)
2.2 모델 인버전(Model Inversion)
2.3 토큰 희소화(Token Sparsification)
2.4 희소 모델 인버전(Sparse Model Inversion)
3. 방법
3.1 문제 정의(Problem Definition)
3.2 Average Attention Matrix(AAM)
3.3 Attention Entropy Minimization(AEM)
3.4 적응형 어텐션 엔트로피 최소화(Adaptive AEM)
4. 실험
4.1 실험 환경(Experimental Setup)
4.2 실험 결과(Experimental Result)
4.3 하이퍼파라미터 최적화
5. 결론
참고문헌
