With Nvidia Groq 3, the Era of AI Inference Is (Probably) Here
Jensen Huang unveiled a new chip based on tech purchased from Groq

This week, over 30,000 people are descending upon San Jose, Calif., to attend Nvidia GTC, the so-called Superbowl of AI—a nickname that may or may not have been coined by Nvidia. At the main event Jensen Huang, Nvidia CEO, took the stage to announce (among other things) a new line of next generation Vera Rubin chips that represent a first for the GPU giant: a chip designed specifically to handle AI inference. The Nvidia Groq 3 language processing unit (LPU) incorporates intellectual property Nvidia licensed from the start-up Groq last Christmas Eve for US $20 billion.
https://spectrum.ieee.org/nvidia-groq-3
엔비디아 Groq 3와 함께 인공지능 추론 시대가 (아마도) 도래했습니다.
젠슨 황은 그로크(Groq)에서 인수한 기술을 기반으로 한 새로운 칩을 공개했습니다
황 교수는 청중에게 "마침내 AI가 생산적인 작업을 수행할 수 있게 되었고, 따라서 추론의 변곡점이 도래했습니다."라고 말했습니다. "AI는 이제 생각해야 합니다. 생각하기 위해서는 추론해야 합니다. AI는 이제 행동해야 합니다. 행동하기 위해서는 추론해야 합니다."
학습과 추론 작업은 서로 다른 계산 요구 사항을 가지고 있습니다. 학습은 방대한 양의 데이터를 동시에 처리할 수 있고 몇 주가 걸릴 수도 있지만, 추론은 사용자의 쿼리가 들어오는 즉시 실행되어야 합니다. 학습과 달리 추론은 비용이 많이 드는 역전파 연산을 필요로 하지 않습니다 . 추론에서 가장 중요한 것은 낮은 지연 시간입니다. 사용자는 챗봇이 빠르게 응답하기를 기대하며, 사고 또는 추론 모델의 경우 사용자가 결과를 보기 전에도 추론이 여러 번 실행됩니다.
지난 몇 년 동안 추론 전용 칩 스타트업들이 마치 캄브리아기 대폭발처럼 급증했으며, 각기 다른 기업들이 추론 속도를 높이기 위한 다양한 접근 방식을 모색해 왔습니다. 이러한 스타트업에는 디지털 인메모리 컴퓨팅을 개발한 D-matrix , 트랜스포머 추론용 ASIC을 개발한 Etched , 뉴로모픽 칩을 개발한 RainAI , 아날로그 인메모리 컴퓨팅을 개발한 EnCharge , AI 연산 효율을 높이기 위해 로그 연산을 사용하는 Tensordyne , 벡터-행렬 곱셈보다는 텐서 연산에 최적화된 하드웨어를 개발한 FuriosaAI 등이 있습니다.
작년 말, 엔비디아가 Groq와의 협력 계약을 발표했을 때, 추론 칩 시장에서 가장 유망한 파트너를 찾은 듯 보였습니다. 하지만 불과 두 달 반 만에 엔비디아 Groq 3 LPU가 공개되면서, 성장하는 추론 시장의 시급성이 더욱 부각되었습니다.
메모리 대역폭 및 데이터 흐름
Groq의 추론 속도 향상 방식은 칩 내 처리 장치와 메모리 장치를 인터리빙하는 데 기반합니다. GPU 옆에 위치한 고대역폭 메모리(HBM)에 의존하는 대신, 프로세서 자체에 통합된 SRAM 메모리를 활용합니다 . 이러한 설계는 칩을 통한 데이터 흐름을 크게 단순화하여 효율적이고 선형적인 방식으로 데이터를 처리할 수 있도록 합니다.
"실제로 데이터는 SRAM을 통해 직접 흐릅니다." 마크 힙스는 2024년 슈퍼컴퓨팅 컨퍼런스 에서 이렇게 말했습니다. 당시 Groq의 최고 기술 전도사였고 현재는 엔비디아의 개발자 마케팅 이사인 힙스는 "멀티코어 GPU를 보면, 많은 명령어가 칩 밖으로 나가 메모리에 저장되었다가 다시 칩으로 돌아와야 합니다. 하지만 SRAM에서는 그런 과정이 필요 없습니다. 모든 데이터가 순차적으로 직접 전달됩니다."라고 설명했습니다.
SRAM을 사용하면 선형 데이터 흐름이 매우 빠르게 이루어져 추론 애플리케이션에 필요한 낮은 지연 시간을 구현할 수 있습니다. 엔비디아 의 하이퍼스케일 및 고성능 컴퓨팅 부문 부사장 겸 총괄 매니저인 이안 벅 은 "LPU는 극도로 낮은 지연 시간의 토큰 생성을 위해 최적화되어 있습니다."라고 말합니다 .
새로운 추론 칩은 인공지능(AI) 도입의 지속적인 추세를 보여주는데, 이는 컴퓨팅 부하가 단순히 점점 더 큰 모델을 구축하는 것에서 실제로 이러한 모델을 대규모로 사용하는 것으로 이동하고 있음을 의미합니다. d-Matrix의 CEO인 Sid Sheth는 "NVIDIA의 발표는 대규모 추론에 있어 SRAM 기반 아키텍처의 중요성을 입증하는 것이며, d-Matrix만큼 SRAM 밀도를 높인 기업은 없습니다."라고 말합니다. 그는 데이터 센터 고객들이 추론을 위해 다양한 프로세서를 원할 것이라고 예상하며, "성공하는 시스템은 다양한 유형의 실리콘을 결합하여 기존 데이터 센터 에 GPU와 함께 쉽게 통합될 수 있을 것입니다 ."라고 덧붙였습니다.
추론 전용 칩만이 유일한 해결책은 아닐 수 있습니다. 지난주 말, 아마존 웹 서비스(AWS) 는 자사 데이터 센터에 새로운 유형의 추론 시스템을 구축할 것이라고 발표했습니다. 이 시스템은 AWS의 Tranium AI 가속기 와 Cerebras Systems의 3세대 컴퓨터 CS-3를 결합한 것으로, CS-3는 지금까지 제작된 단일 칩 중 가장 큰 크기를 자랑 합니다. 이 두 부분으로 구성된 시스템은 추론 분리(inference disaggregation)라는 기술을 활용하도록 설계되었습니다. 추론 과정을 두 부분으로 나누는데, 하나는 프롬프트 처리(prefill)이고 다른 하나는 출력 생성(decode)입니다. prefill은 본질적으로 병렬 처리가 가능하고 계산 집약적이지만 많은 메모리 대역폭을 필요로 하지 않습니다. 반면 decode는 직렬 처리 방식이므로 많은 메모리 대역폭이 필요합니다. Cerebras는 칩에 44GB 이상의 SRAM을 탑재하고 21PB/s의 네트워크로 연결하여 메모리 대역폭 문제를 극대화했습니다.
엔비디아 역시 새로운 통합 컴퓨팅 트레이인 엔비디아 그로크 3 LPX에서 추론 분산 기술을 활용할 계획입니다. 각 트레이에는 8개의 그로크 3 LPU와 베라 루빈(루빈 GPU와 베라 CPU를 결합한 제품)이 탑재됩니다. 디코딩의 사전 처리 및 연산 집약적인 부분은 베라 루빈에서 수행되고, 최종 처리는 그로크 3 LPU에서 수행되어 각 칩의 강점을 활용합니다. 황 CEO는 "현재 대량 생산에 들어갔습니다."라고 밝혔습니다.
https://spectrum.ieee.org/nvidia-groq-3
Can Nvidia Really Reach 1 Trillion In Revenue? NVDA and Groq Team Up

댓글 없음:
댓글 쓰기