2014년 11월 29일 토요일

미래 고성능 컴퓨터를 위한 메모리 시스템에 관한 연구

글: 오성일 연구원 (융대원 지능형융합전공 박사과정)
*본 연구는 2014년 11월, The International Conference for High Performance Computing, Netwrking, Storage and Analysis 2014 (SC 2014, New Orleans)에서 발표된 논문을 기초로 작성하였음을 밝힙니다
.

  

1. 연구 배경

 
 1946년 컴퓨터가 개발된 이후로 지금까지 약 70년동안 컴퓨터의 성능은 상상할 수 없을 정도로 발전되어 왔다. 단순한 계산기로만 여겨졌던 1세대 컴퓨터는 다양한 기능들을 수행할 수 있도록 보다 진보하였으며 사무실이나 가정에서 컴퓨터가 없는 곳은 없을 정도로 생활화 됐다.

 이러한 컴퓨터의 발전의 목표는 '크기는 보다 작게', '계산 성능은 보다 높게', 그리고 '에너지를 보다 적게' 하는 방향으로 발전되어져 왔으며 이것을 가능하게 해준 것은 바로 컴퓨터의 핵심 장치인 중앙처리장치(CPU)와 RAM이나 ROM과 같은 주기억장치의 개발 때문이다.

 오늘 소개할 논문에서는 이러한 컴퓨터의 핵심 장치 중 운영체제가 자유롭게 내용을 읽고 쓰고 지울 수 있는 기억장치인 RAM의 성능을 향상시키는 방법에 대해 서술한다. 일반적으로 컴퓨터가 계산을 수행할 때, 계산에 필요한 데이터들은 RAM에 저장을 해 둔다. 이 후 컴퓨터가 여러 업무를 수행할 때 RAM에 저장된 정보들을 사용함으로써 우리가 즐겨하는 게임이나 문서편집이 가능한 것이다.

 즉, 중앙처리장치의 성능이 아무리 뛰어나더라도 메모리에서 필요한 명령어 및 데이터를 적시에 공급받지 못한다면 컴퓨터 시스템은 제 성능을 낼 수 없다.

 그렇다면, 이렇게 중요한 역할을 수행하는 RAM, 그 중에서도 DRAM의 성능을 높이기 위해 사람들은 어떠한 노력을 하였을까? 대부분의 노력은 DRAM을 구성하는 단일 트랜지스터의 성능을 높이는 것이었다. 하지만 단일 칩으로 구성된 DRAM은 시스템 성능의 병목 현상을 유발하였다.

최근 반도체 미세공정기술이 발달함에 따라 그림 1에서 보이는 바와 같이 인터포저라고 불리는 반도체 기판에 CPUDRAM을 연결하여 성능 및 에너지 효율을 향상시키는 2.5D 집적기술이 각광받고 있다. 2.5D 집적기술은 기존 PCB 기판위에 배선된 채널의 도선 폭을 20분의 1이하로 줄일 수 있기 때문에 PCB에 비해 다수 메모리 채널의 구성이 가능하므로 메모리에 의한 성능의 병목 현상을 줄일 수 있다.
 

본 연구에서는 2.5D 집적기술의 적용된 시스템에서 주기억장치로 사용되는 DRAM 칩의 내부 구조를 탐구하였다. 탐구 결과 단순히 메모리 채널 수를 늘리는 것 보다 DRAM 칩 내부 구조의 변경을 통해 임의접근 성능을 향상시키면 2.5D 집적기술이 적용된 시스템의 성능 및 에너지 효율 대폭 향상 시킬 수 있음을 실험적으로 증명하였다.

 


[그림 1] NVIDIA Pascal GPU (Graphic Processing Unit) 구조
2.  연구 목표


 일반적인 DRAM 칩은 그림 2와 같이 뱅크(Bank)라고 하는 독립적으로 작동 가능한 데이터 저장소가 CPU와의 통신을 위한 입출력 회로를 공유하는 형태로 구성되어 있다.
 
뱅크는 2차원 배열의 형태로 구성된 기억소자의 집합으로 특정 행의 데이터를 연속적으로 접근할 때 최적의 성능을 내는 반면, 다수의 행에 대한 임의접근을 수행하면 전자에 비해 수십 배의 성능저하가 발생한다. 따라서 기존 DRAM 칩은 임의접근 성능 향상을 위해 독립적으로 작동 가능한 뱅크에 데이터를 분산 저장하는 형태로 설계된다. 일반적인 DRAM 칩의 뱅크 수는 4~8개 정도인데, 이와 같이 뱅크 수가 적은 이유는 뱅크 수를 늘릴수록 칩의 면적 효율이 떨어지기 때문이다.
 
본 연구는 기존 뱅크의 구조를 구조에 대한 이해를 바탕으로 5% 이내의 칩 면적 증가로 뱅크 수를 약 32배 증가 시킬 수 있는 새로운 DRAM 내부 구조의 개발을 목로 진행되었다. 개선된 DRAM 내부 구조를 2.5D 시스템에 적용할 경우 약 104%의 성능 향상과 74%의 에너지 효율 향상 효과를 얻을 수 있다.


[그림 2] DRAM 칩의 구조

3. 제안된 기술

 본 연구에서 제안하는 MicroBank5% 이하의 칩 면적증가로 기존 DRAM 칩의 논리적인 뱅크 수를 최대 32배 증가 시킬 수 있는 기술이다.
  

그림 3에서 보이는 바와 같이 기존 DRAM 칩의 뱅크는 약 512 bits x 512 bits 크기의 2차원 배열 구조의 기억소자 집합인 매트(Mat)가 워드라인과 비트라인이라고 하는 전역 도선을 통해 연결된 계층 구조로 설계된다.
 

DRAM 칩의 속도는 워드라인과 비트라인의 저항과 도선간 정전용량에 비례하여 감소한다. 또한, DRAM 칩은 면적 효율과 가격 향상을 위해 고저항의 알루미늄 도선을 이용하며 뱅크 당 1024개 이상의 매트가 전역 도선을 공유하는 형태로 설계된다. 따라서 임의 접근 성능 향상을 위해 고가의 저저항 구리도선을 사용하거나 전역 도선의 수를 늘리는 대신 연결되는 매트 수를 줄이는 방식은 상당한 비용을 필요로 한다.
 

그러나 그림 4와 같이 뱅크에 특정 매트들이 독립적으로 작동할 수 있도록 하는 디코더와 같은 간단한 회로를 추가하고, 저가의 매트 내부 데이터라인을 증설하면 DRAM 동작 속도의 변화 없이 적은 비용으로 논리적인 뱅크 수를 늘릴 수 있다.


[그림 3] MicroBank 개념도


[그림 4] MicroBank 내부구조 개념도



  
4. 연구 결과


 그림 5에서 보이는 바와 같이 본 연구에서 제안하는 MicroBank를 적용한 LPDDR-TSI 시스템은 모든 워크로드에서 기존 PCB를 활용한 DDR3-PCB 시스템에 비해 높은 성능 및 에너지 효율을 보인다. 이 때, 대량의 메모리 접근이 발생하는 mix-high에서 LPDDR-TSIDDR3-PCB에 비해 104%의 성능 향상 및 74%의 에너지 효율 향상을 제공하는 것을 확인할 수 있다.
 


[그림 5] MicroBank에 의한 성능 및 에너지 효율 향상


5.  앞으로의 연구계획
 이후 연구에서는 MicroBank가 적용된 메모리 시스템에서 다수의 뱅크를 효과적으로 활용할 수 있는 메모리 접근 스케줄링 기법를 개발하는 것을 목표로 연구를 진행할 것이다. 또한, 개발한 스케줄링 기법을 기존 유명 연구 결과와 비교함으로써 연구의 유용성을 검증할 것이다.


6. 글쓴이 소개

오성일 연구원 (swdfish@snu.ac.kr)
전공: 지능형융합전공 SCAL Lab 박사과정
관심분야: High Performance Computing, Memory System, DRAM Microarchitecture.



0 개의 댓글:

댓글 쓰기

차세대융합기술연구원 │ 서울대학교 융합과학기술대학원. Powered by Blogger.