The Ultimate 3D Integration Would Cook Future GPUs
Imec has a multistep plan to keep things cool
Peek inside the package of AMD’s or Nvidia’s most advanced AI products, and you’ll find a familiar arrangement: The GPU is flanked on two sides by high-bandwidth memory (HBM), the most advanced memory chips available. These memory chips are placed as close as possible to the computing chips they serve in order to cut down on the biggest bottleneck in AI computing—the energy and delay in getting billions of bits per second from memory into logic. But what if you could bring computing and memory even closer together by stacking the HBM on top of the GPU?
AMD나 엔비디아의 최첨단 AI 제품 패키지 내부를 살펴보면 익숙한 구성을 발견할 수 있습니다. GPU 양쪽에는 현존하는 가장 진보된 메모리 칩인 고대역폭 메모리(HBM) 가 배치되어 있습니다 . 이러한 메모리 칩은 AI 컴퓨팅의 가장 큰 병목 현상, 즉 초당 수십억 비트의 데이터를 메모리에서 로직으로 가져오는 데 필요한 에너지와 지연 시간을 줄이기 위해 컴퓨팅 칩에 최대한 가깝게 배치됩니다 . 그런데 만약 HBM을 GPU 위에 쌓아 컴퓨팅과 메모리를 더욱 가깝게 만들 수 있다면 어떨까요?
Imec은 최근 첨단 열 시뮬레이션을 사용하여 이 시나리오를 분석했으며, 2025년 12월 IEEE 국제 전자 소자 회의 (IEDM) 에서 발표한 결과는 다소 암울했습니다. 3D 적층 구조는 GPU 내부 작동 온도를 두 배로 높여 작동 불능 상태로 만듭니다. 하지만 Imec의 제임스 마이어스가 이끄는 연구팀은 여기서 멈추지 않았습니다. 그들은 궁극적으로 온도 차이를 거의 0에 가깝게 줄일 수 있는 몇 가지 엔지니어링 최적화 방안을 찾아냈습니다.
2.5D 및 3D 고급 패키징
Imec은 오늘날 흔히 볼 수 있는 2.5D 패키지 형태의 GPU와 4개의 HBM 다이의 열 시뮬레이션을 진행했습니다. 이 패키지에서는 GPU와 HBM 칩이 인터포저라는 기판 위에 최소한의 간격으로 배치됩니다. 두 종류의 칩은 인터포저 표면에 내장된 수천 개의 마이크로미터 크기 구리 인터커넥트 로 연결됩니다 . 이 구성에서 모델 GPU는 414와트의 전력을 소비하고 최고 온도는 70°C에 약간 못 미치는 수준으로, 일반적인 프로세서의 온도와 비슷합니다. 메모리 칩은 약 40와트의 전력을 추가로 소비하며 온도는 GPU보다 다소 낮습니다. 열은 최근 AI 데이터 센터 에서 흔히 사용되는 액체 냉각 방식을 통해 패키지 상단에서 제거됩니다 .
이멕(Imec)의 선임 연구원인 유카이 첸 (Yukai Chen)은 IEDM에서 엔지니어들에게 "현재 이 방식이 사용되고 있지만, 특히 GPU의 양쪽 면을 막아 패키지 내부의 GPU 간 연결을 제한하기 때문에 미래에는 확장성이 떨어집니다."라고 말했습니다 . 반면 "3D 방식은 더 높은 대역폭과 더 낮은 지연 시간을 제공합니다. 가장 중요한 개선점은 패키지 크기입니다."라고 덧붙였습니다.
Imec’s Plan For Continued Scaling
시스템 기술 공동 최적화
Imec 팀은 온도를 낮추기 위해 여러 기술 및 시스템 최적화를 시도했습니다. 그들이 처음 시도한 것은 더 이상 필요하지 않은 실리콘 층을 제거하는 것이었습니다. 그 이유를 이해하려면 먼저 HBM이 무엇인지 정확히 알아야 합니다.
이러한 형태의 메모리는 최대 12개의 고밀도 DRAM 다이가 쌓여 있는 구조입니다. 각 다이는 수십 마이크로미터 두께로 얇게 가공되었으며, 수직 연결부가 관통하고 있습니다. 이렇게 얇게 가공된 다이들은 서로 겹쳐 쌓이고 미세한 납땜 으로 연결되며 , 이 메모리 스택은 베이스 다이(base die)라고 불리는 또 다른 실리콘 칩에 수직으로 연결됩니다. 베이스 다이는 데이터를 다중화하는 로직 칩으로, 밀리미터 크기의 간격을 통해 GPU로 데이터를 전송할 수 있는 제한된 수의 배선에 데이터를 압축하여 전달하는 역할을 합니다.
하지만 HBM이 GPU 상단에 탑재되면서 더 이상 데이터 펌프가 필요 없어졌습니다. 이제 데이터는 칩 측면에 얼마나 많은 배선이 들어갈 수 있는지에 상관없이 프로세서로 직접 흐를 수 있습니다. 물론 이러한 변화는 메모리 제어 회로를 기본 다이에서 GPU로 옮겨야 하므로 프로세서의 평면도를 변경해야 한다는 것을 의미한다고 마이어스는 말합니다. 하지만 GPU는 더 이상 들어오는 메모리 데이터를 다중화 해제하는 데 사용되는 회로가 필요하지 않으므로 충분한 공간이 확보될 것이라고 그는 예상합니다.
메모리라는 중간 단계를 제거함으로써 온도가 4°C 미만으로 약간 낮아졌습니다. 하지만 중요한 것은 메모리와 프로세서 간의 대역폭이 크게 향상된다는 점이며, 이는 연구팀이 시도한 또 다른 최적화 방법인 GPU 속도 저하에 중요한 요소입니다.
최적화된 HBM
온도를 크게 낮추는 또 다른 방법은 HBM 스택과 그 주변 영역의 전도성을 높이는 것이었습니다. 여기에는 네 개의 스택을 두 개의 더 넓은 스택으로 병합하여 열이 갇히는 영역을 제거하고, 스택의 맨 위쪽(일반적으로 더 두꺼운) 다이를 얇게 만들고, HBM 주변 공간을 실리콘 빈 조각으로 채워 열 전도성을 높이는 것이 포함됩니다.
이 모든 과정을 거친 후, 스택의 온도는 약 88°C까지 올라갔습니다. 최종 최적화를 통해 온도를 70°C 근처까지 낮출 수 있었습니다. 일반적으로 칩에서 발생하는 열의 약 95%는 패키지 상단에서 제거되는데, 이 경우에는 물이 열을 흡수합니다. 하지만 하단에도 유사한 냉각 방식을 적용함으로써 스택형 칩의 온도를 최종적으로 17°C까지 낮출 수 있었습니다.
마이어스는 IEDM에서 발표된 연구 결과가 가능성을 보여주긴 하지만, HBM-on-GPU가 반드시 최선의 선택은 아니라고 말합니다. 그는 "이것이 최선의 선택인지 아닌지에 대한 확신을 얻기 위해 다른 시스템 구성들을 시뮬레이션하고 있다"고 밝혔습니다. "업계 일부에서는 GPU를 냉각 장치에 더 가깝게 배치할 수 있다는 점에서 GPU-on-HBM에 관심을 보이고 있다"고 덧붙였습니다. 하지만 GPU의 전력과 데이터가 HBM을 통해 수직으로 이동해야 하므로 설계가 더 복잡해질 가능성이 높습니다.



댓글 없음:
댓글 쓰기