Construction, IT, Science, Economy etc

엔비디아, AI 모델이 방대한 환경에서 작동하는 새 병렬 처리 기술 개발 NVIDIA unveils world’s first long-context AI that serves 32x more users live


엔비디아는 AI 모델이 방대한 환경에서 작동하는 방식을 획기적으로 개선할 수 있는 강력한 새로운 병렬 처리 기술을 공개했습니다. 헬릭스 병렬 처리(Helix Parallelism)라고 불리는 이 혁신 기술은 AI 에이전트가 마치 백과사전처럼 수백만 개의 단어를 동시에 처리하면서 번개처럼 빠른 응답을 제공할 수 있도록 합니다.


대규모 AI 추론을 위해 설계된 NVIDIA의 Blackwell 기반 NVL72 시스템의 클로즈업

NVIDIA unveils world’s first long-context AI that serves 32x more users live

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=webpush&utm_medium=article

Related Article

엔비디아, 마이크로소프트 애플 제치고 4조 달러 기업 등극...그 비결은 Nvidia briefly becomes the first $4 trillion company. How it beat Microsoft and Apple to the crown.

https://conpaper.blogspot.com/2025/07/4-nvidia-briefly-becomes-first-4.html

이 업그레이드는 초고속 메모리 대역폭과 FP4 컴퓨팅을 제공하는 NVIDIA의 최신 GPU 시스템인 Blackwell을 위해 공동 설계되었습니다.

AI 도구가 규모와 복잡성 면에서 확장되고 있습니다. 법률 보조 조종사가 판례 기록 전체를 읽거나 챗봇이 몇 달 동안의 대화를 추적하는 것처럼요. 하지만 NVIDIA의 획기적인 기술 덕분에 더 많은 사용자에게 더 빠르게 서비스를 제공할 수 있게 되었습니다.

두 가지 주요 병목 현상 해결

대규모 AI 모델의 가장 큰 문제는 단순히 크기만이 아닙니다. 문제는 "컨텍스트"라고 불리는 방대한 양의 기존 입력 데이터를 활용하여 새로운 콘텐츠를 생성하려고 할 때 발생합니다.

AI가 생성하는 모든 단어는 KV 캐시라고 불리는 곳에 저장된 과거 토큰들을 스캔해야 합니다. 이 캐시를 반복해서 읽으면 GPU 메모리 대역폭에 부담을 주게 됩니다.

동시에 AI는 새로운 단어를 처리하기 위해 메모리에서 방대한 피드포워드 네트워크(FFN) 가중치를 다시 로드해야 합니다. 이 과정은 특히 채팅과 같은 실시간 사용 사례에서 작업 속도를 저하시킵니다.

이전에는 개발자들이 텐서 병렬 처리(TP)를 사용하여 이러한 부하를 여러 GPU에 분산했습니다. 하지만 이는 어느 정도까지만 효과가 있습니다. 특정 크기를 초과하면 GPU가 KV 캐시를 복제하기 시작하여 메모리 부족 현상이 더욱 심화됩니다.

Helix가 다르게 하는 것

Helix는 모델 트랜스포머 계층의 어텐션(attention)과 FFN(Functional Function) 부분을 분리하여 개별적으로 처리함으로써 이 문제를 해결합니다. 어텐션 단계에서 Helix는 KV 병렬화(KV Parallelism, KVP)라는 새로운 방식을 사용하여 방대한 KV 캐시를 여러 GPU에 분산합니다.

중복을 피하고 메모리 접근 효율성을 유지합니다.

간단히 말해서, Helix는 작업을 구획화합니다. 모든 GPU가 토큰의 전체 기록을 읽는 대신, 각 GPU는 그 중 일부만 처리합니다.


그런 다음 동일한 GPU가 기어를 변경하여 표준 TP 모드로 전환하여 FFN 계층을 실행합니다. 이를 통해 리소스를 효율적으로 재사용하여 GPU를 활성 상태로 유지하고 유휴 시간을 줄입니다.

Helix는 NVIDIA 의 NVLink 및 NVL72 상호 연결을 최대한 활용하여 GPU 간에 데이터를 빠르게 이동합니다.

또한 GPU 통신과 연산을 중첩하여 지연을 더욱 줄이는 기술인 HOP-B도 도입했습니다.


엄청난 성능 향상

백만 개의 토큰 컨텍스트를 갖춘 대규모 모델인 DeepSeek-R1 671B를 사용한 시뮬레이션은 Helix가 기존 방식에 비해 동일한 지연 시간으로 최대 32배 더 많은 사용자에게 서비스를 제공할 수 있음을 보여줍니다.

또한 낮은 동시성 부하에서 응답 시간(기술적으로 토큰 간 지연이라고 함)을 최대 1.5배까지 단축합니다.

AI 컨텍스트가 수백만 단어로 확장되더라도 Helix는 메모리 사용량을 균형 있게 유지하고 처리량을 일관되게 유지합니다.

시스템은 메모리 급증과 GPU 과부하를 방지하기 위해 라운드 로빈 패턴으로 KV 캐시 업데이트를 단계적으로 실행합니다 .

간단히 말해, Helix를 사용하면 실시간 성능을 저하시키지 않고도 AI 모델의 크기와 속도를 확장할 수 있습니다.

즉, 가상 비서, 법률 봇, AI 조종사는 이제 반응성을 유지하면서도 막대한 작업 부하를 관리할 수 있습니다.

NVIDIA unveils world’s first long-context AI that serves 32x more users live

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=webpush&utm_medium=article

kcontents

댓글 없음: