earticle

논문검색

GPGPU 성능 향상을 위한 캐쉬 경합 기반 CTA 할당 기법 연구

원문정보

Cache Contention based CTA Allocation Method for GPGPUs

문민구, 김철홍

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Recent Graphics Processing Units(GPU) with powerful hardware resources provide high throughput for graphics tasks and general-purpose tasks by executing multiple threads in parallel. However, increased parallelism in the GPU also causes cache contention problem because it increases the number of memory requests. Excessive cache contention decreases the cache efficiency, and this may cause performance degradation of GPUs. In this paper, we propose a technique of limiting the number of CTAs(Cooperative Thread Arrays) allocated to the SM(Streaming Multiprocessor) based on MSHR(Miss Status Handling Registers) utilization to mitigate the performance degradation due to massive memory requests. MSHR stores the information corresponding to the memory request when a miss occurs in the cache. Our proposed method measures the degree of utilization for MSHR dynamically, and compares the measured value with the predefined threshold value, and determines whether the cache efficiency is high or low. If the cache efficiency is predicted to be low, the parallelism is reduced by limiting the number of CTAs allocated to the SM. When the cache efficiency is predicted to be high, the parallelism is increased by allocating more new CTAs. According to our experimental results, the proposed technique can improve the performance of GPUs by 5% on average compared to the traditional GPU architecture.

한국어

최근의 그래픽처리장치는(GPU: Graphics Processing Unit) 병렬 처리 작업에 특화된 하드웨어 자원을 활용하 여 다수의 스레드를 병렬로 수행시킴으로써 처리량을 극대화시켜 그래픽 작업뿐만 아니라 범용 프로그램에서도 좋 은 성능을 제공한다. 그러나 병렬성의 증가는 단위시간 동안 캐쉬에 접근하는 메모리 요청을 증가시키는데, 많은 양 의 메모리 요청은 캐쉬 경합(Cache Contention)을 증가시키기도 한다. 과도한 캐쉬 경합은 캐쉬에 대한 효율성을 낮추기 때문에 이로 인해 그래픽처리장치의 성능이 크게 감소할 수 있다. 본 논문에서는 MHSR(Miss Status Handling Registers)을 활용하여 SM(Streaming Multiprocessor)에 할당되는 CTA(Cooperative Thread Arrays)를 제한하는 기법을 통해 높은 병렬성으로 인한 성능 저하를 완화하고자 한다. MSHR은 캐쉬에 미스가 발 생했을 때 해당 요청에 대한 정보를 저장하는 자원으로, 점유된 MSHR 엔트리의 수를 통해 캐쉬 효율을 간접적으 로 추정할 수 있다. 제안하는 기법은 MSHR의 사용량을 측정하고, 측정값을 임계값과 비교하여 캐쉬 효율이 높은 지, 낮은지를 판단한다. 비교 결과, 캐쉬 효율이 낮다고 추정되는 경우에는 SM에 새로운 CTA를 할당하지 않음으 로써 병렬성을 낮추고, 높다고 추정되는 경우에는 새로운 CTA를 할당함으로써 병렬성을 높인다. 실험결과에 따르 면 제안하는 CTA 할당 기법은 기존 GPU 구조와 비교했을 때 약 5%의 성능 향상을 보인다.

목차

요약
Abstract
1. 서론
2. GPU 구조
3. 캐쉬 경합 기반 CTA 할당 기법
4. 실험 환경 및 결과
4.1 실험 환경
4.2 실험결과 및 분석
5. 결론
Acknowledgement
참고문헌

저자정보

  • 문민구 Mingoo Moon. 전남대학교 전자컴퓨터공학과
  • 김철홍 Cheol Hong Kim. 숭실대학교 컴퓨터학부

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.