원문정보
A Review of Computational Reduction Techniques in Artificial Intelligence
초록
영어
Deep‑learning models have continually increased their layer depth and channel width to boost performance, but this expansion has caused an explosive growth in computation and memory demand, making real‑time service on edge devices such as smartphones and other personal hardware increasingly difficult. To tackle this problem, the present paper distinguishes and introduces two core strategies. The first strategy, an architecture‑centric design approach, reduces the computational burden from the outset by exploring structures such as depthwise‑group convolutions and compound scaling. The second strategy, a parameter‑transformation approach, targets already‑trained networks and sharply cuts parameters and operations by applying knowledge distillation, integer quantization, pruning, and similar techniques. In the field, a common pipeline first builds a lightweight backbone and then recovers accuracy through a combination of quantization and distillation. Looking forward, architecture search and full hardware–software co‑optimization are expected to become essential tasks in order to cope with large multimodal models and to meet the demands of an eco‑friendly era of artificial intelligence.
한국어
인공지능 모델은 성능을 높이기 위해 층수와 채널 수를 계속 확장해 왔지만, 그 결과 계산량과 메모리 요구량이 폭증해 모바일 등의 엣 지 기기나 핸드폰과 같은 개인 장비에서 실시간 서비스가 어려워지고 있다. 이 문제를 해결하는 방법들에 대해 본 논문에서는 두 가지 핵심 전략으로 구분하여 소개하고자 한다. 첫째, 모델 구조 설계 중심 접근 방법은 깊이별-그룹 합성곱, 복합 스케일링 등등의 구조 탐 색을 통해 처음부터 연산 부담을 줄이는 방법을 소개한다. 둘째, 파라미터 변환 기반 접근 방법은 이미 학습된 모델을 대상으로 지식 증 류, 정수 양자화, 가지치기 등등을 적용해 파라미터와 연산을 크게 줄이는 방법을 소개한다. 현장실무에서는 경량 백본을 만든 뒤 양자 화와 증류로 정확도를 복구하는 파이프라인이 흔히 사용된다. 앞으로는 대형 멀티모달 모델과 친환경 인공지능시대에 대응하기 위해 아키텍처 탐색과 하드웨어, 소프트웨어의 통합 최적화가 필수 과제로 떠오를 전망이다.
목차
ABSTRACT
Ⅰ. 서론
Ⅱ. 모델 구조 설계 중심 접근
1. 깊이별 분리 합성곱(Depthwise Separable Convolution)
2. 그룹 합성곱 및 채널 셔플(Group Convolution and Channel Shuffle)
3. 복합 스케일링 전략(Compound Scaling)
4. 하이브리드 비전 트랜스포머(Hybrid Vision Transformer)
5. 동적 네트워크(Learning Dynamic Routing)와신경망 탐색(NAS: Neural Architecture Search)
Ⅲ. 파라미터 변환 기반 접근
1. 지식 증류(Knowledge Distillation)
2. 양자화(Quantization)
3. 가지치기(Pruning)와 파인튜닝(Fine Tuning)
4. 저차원 분해(Low Rank Factorization)와 가중치 공유(Weight Sharing)
Ⅳ. 결론
참고문헌
