Microsoft: Inside the World’s First AI Superfactory
Microsoft unveils the world’s first AI superfactory, called the Atlanta Fairwater data centre, that connect hundreds of thousands of Nvidia Blackwell GPUs
The race to train frontier AI models is pushing data centre infrastructure to its physical limits – and the constraints are increasing.
So much so, now the speed of light is determining how tightly processors can be packed together – and heat dissipation governs how much power can be pumped through a rack.
These are the hard boundaries influencing where and how AI gets built.
https://aimagazine.com/news/microsoft-inside-the-worlds-first-ai-superfactory
Microsoft는 수십만 개의 Nvidia Blackwell GPU를 연결하는 세계 최초의 AI 슈퍼팩토리인 Atlanta Fairwater 데이터 센터를 공개했습니다.
최첨단 AI 모델을 훈련하기 위한 경쟁으로 인해 데이터 센터 인프라는 물리적 한계에 도달하고 있으며 제약도 증가하고 있습니다.
이는 AI가 어디서 어떻게 구축되는지에 영향을 미치는 엄격한 경계입니다.
이러한 과제를 해결하기 위해 Microsoft는 조지아주 애틀랜타에 두 번째 Fairwater AI 데이터 센터를 열었으며, 전용 AI 광역 네트워크를 통해 위스콘신의 기존 사이트 와 연결했습니다.
이 공장의 독특한 점은 회사가 단일 플랫 네트워크 아키텍처로 수십만 개의 Nvidia GB200 및 GB300 그래픽 처리 장치 (GPU)를 수용하도록 시설을 설계했다는 점입니다. 즉, 기존 클라우드 데이터 센터 모델을 버리고 현대 AI 교육의 요구 사항에 맞춰 특별히 구축한 것입니다.
Microsoft의 CEO인 Satya Nadella 는 "오늘 우리는 위스콘신에 있는 첫 번째 Fairwater 사이트와 더 광범위한 Azure 인프라에 연결된 애틀랜타의 새로운 Fairwater 데이터 센터를 발표하여 세계 최초의 AI 슈퍼팩토리를 구축할 것입니다."라고 말했습니다.
그렇다면 AI 슈퍼팩토리를 만드는 요소는 무엇일까요? 그리고 이것이 역사상 최초라는 것의 중요성은 무엇일까요?
AI 슈퍼팩토리는 어떻게 작동하며, 어떤 이점이 있나요?
애틀랜타 사이트는 AI 작업 부하가 단순히 대규모 모델을 훈련하는 것 이상으로 어떻게 발전했는지 보여줍니다.
Satya는 이렇게 말합니다. "AI 워크로드는 대규모 사전 학습을 넘어 진화했습니다. 오늘날 AI 워크로드는 미세 조정, 강화 학습, 합성 데이터 생성, 평가 파이프라인 등을 포괄합니다."
각 랙은 약 140kW의 전력을 소모하며, 전체 행은 1,360kW를 소비합니다.
폐쇄 루프 냉각 방식은 초기 충전 후 계속해서 물을 재사용하는데, 이는 20가구가 1년에 소비하는 양과 동일합니다.
액체 냉각 방식으로의 전환은 단순히 지속 가능성만을 위한 것이 아닙니다. Microsoft가 컴퓨팅 성능을 얼마나 집약적으로 배치할 수 있는지를 변화시킵니다.
이러한 전력 수준에서는 공기 냉각만으로는 열을 충분히 빠르게 제거할 수 없으므로 액체 냉각만이 유일한 실행 가능한 경로가 됩니다.
Microsoft는 또한 GPU 간 케이블 길이를 최소화하기 위해 2층 건물 설계를 구현했습니다.
모든 GPU가 클러스터의 다른 모든 GPU에 연결해야 하는 경우 물리적 거리가 중요합니다.
랙을 3차원으로 배치하면 신호가 이동해야 하는 거리가 줄어들어 지연 시간과 대역폭이 직접적으로 향상됩니다.
각 랙에는 NVLink(Nvidia의 독점적인 상호 연결 기술)를 통해 연결된 최대 72개의 Nvidia Blackwell GPU가 장착됩니다.
또한, Blackwell 가속기는 초당 연산량을 늘리고 메모리 요구량을 줄이는 4비트 부동 소수점 형식인 FP4를 지원합니다. 각 랙은 1.8TB의 GPU 간 대역폭을 제공합니다.
Microsoft의 AI 슈퍼팩토리 그리드 전력이 99.99% 가용성을 제공하는 방법
애틀랜타 위치가 선택된 이유 중 하나는 99.99% 가동 시간을 제공하는 반면 비용은 99.99%에 불과해 전력 공급에 대한 접근성이 뛰어나기 때문입니다. 이 가격대는 일반적으로 99.9%의 안정성과 관련이 있습니다.
이러한 안정적인 그리드 연결을 통해 Microsoft는 GPU 제품군에 대한 현장 발전 및 무정전 전원 공급 장치를 포함한 기존 백업 인프라를 제거할 수 있습니다.
그러나 이 규모의 전력을 관리하는 것은 그 자체로 과제입니다.
https://aimagazine.com/news/microsoft-inside-the-worlds-first-ai-superfactory




댓글 없음:
댓글 쓰기