원문정보
A Study on Improvement of Buffer Cache Performance for File I/O in Deep Learning
초록
영어
With the rapid advance in AI (artificial intelligence) and high-performance computing technologies, deep learning is being used in various fields. Deep learning proceeds training by randomly reading a large amount of data and repeats this process. A large number of files are randomly repeatedly referenced during deep learning, which shows different access characteristics from traditional workloads with temporal locality. In order to cope with the difficulty in caching caused by deep learning, we propose a new sampling method that aims at reducing the randomness of dataset reading and adaptively operating on existing buffer cache algorithms. We show that the proposed policy reduces the miss rate of the buffer cache by 16% on average and up to 33% compared to the existing method, and improves the execution time by up to 24%.
한국어
인공지능과 고성능 컴퓨팅 기술이 급속히 발전하면서 다양한 분야에 딥러닝 기술이 활용되고 있다. 딥러닝은 학습 과정에서 대량의 데이터를 무작위로 읽어 학습을 진행하고, 이 과정을 반복한다. 많은 수의 파일들이 무작위로 반복 참조되는 딥러닝의 파일 입출력은 시간적 지역성을 지닌 일반적인 응용과는 다른 특징을 보인다. 이로 인한 캐싱의 어려 움을 극복하기 위해 본 연구에서는 딥러닝 데이터셋 읽기의 무작위성을 줄이고 기존의 버퍼 캐시 알고리즘에 적응적으로 동작하는 새로운 데이터 읽기 방안을 제안한다. 본 논문에서는 실험을 통해 제안하는 방식이 버퍼 캐시의 미스율을 기존 의 방식에 비해 평균 16%, 최대 33% 감소시키고, 수행시간을 24%까지 개선함을 보인다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 딥러닝 학습을 위한 파일 읽기 기법
1. 묶음 단위의 무작위 읽기
2. 묶음 단위의 번갈아 읽기
Ⅲ. 성능 평가
1. 기존 버퍼 캐시와의 성능 비교
2. 학습 성능
Ⅳ. 결론
References