Construction, IT, Science, Economy etc

차세대 AI에 필요한 액체 냉각: 4단계 Next-Gen AI Needs Liquid Cooling ​


Next-Gen AI Needs Liquid Cooling

Walk into a typical data center and one of the first things that jumps out at you is the noise—the low, buzzing sound of thousands of fans: fans next to individual computer chips, fans on the back panels of server racks, fans on the network switches. All of those fans are pushing hot air away from the temperature-sensitive computer chips and toward air-conditioning units.

https://spectrum.ieee.org/data-center-liquid-cooling?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2025-10-14&utm_content=hero1

차세대 AI에는 액체 냉각이 필요합니다

이를 완료하는 4가지 새로운 방법은 다음과 같습니다.

일반적인 데이터 센터에 들어서면 가장 먼저 눈에 띄는 것은 소음입니다. 수천 개의 팬이 낮게 윙윙거리는 소리입니다. 개별 컴퓨터 칩 옆에 있는 팬 , 서버 랙 후면 패널에 있는 팬, 네트워크 스위치에 있는 팬까지, 이 모든 팬은 온도에 민감한 컴퓨터 칩에서 뜨거운 공기를 에어컨 쪽으로 밀어냅니다.


하지만 그 팬들은 아무리 윙윙거려도 더 이상 버틸 수 없습니다. 지난 10년 동안 최첨단 컴퓨터 칩의 전력 밀도는 폭발적으로 증가했습니다. 2017년 엔비디아는 300와트의 전력을 소모하는 V100 GPU 를 출시했습니다 . 이 전력의 대부분은 열로 방출됩니다. 3년 후인 2020년에는 최대 400와트의 전력을 소모하는 엔비디아 A100이 출시되었습니다. 현재 인기를 끌고 있는 H100은 2022년에 출시되었으며 최대 700와트의 전력을 소모합니다. 2024년에 출시된 최신 블랙웰 GPU는 최대 1,200와트의 전력을 소모합니다.

수냉식 냉각 회사인 마이크로스 테크놀로지스(Mikros Technologies) 의 사장 겸 CEO인 드류 매터(Drew Matter) 는 "향후 1~2년 안에 칩당 2,000와트 이상의 전력을 목표로 로드맵을 수립하고 있습니다."라고 말했습니다 . "실제로 업계는 가까운 미래에 5킬로와트 이상의 칩을 준비하고 있습니다."

이러한 전력 폭발의 원인은 바로 AI입니다. 그리고 첨단 칩에서 추가된 전력을 소모하는 모든 추가 연산은 감당할 수 없는 수준의 열을 발생시키고 있습니다.

스타트업 Accelsius 의 CEO인 조쉬 클래먼은 "랙당 평균 전력 밀도는 약 8kW였습니다."라고 말합니다 . "AI의 경우 랙당 100kW까지 증가하고 있습니다. 엄청난 규모입니다. AI 도입으로 인해 데이터 센터 냉각을 위한 더 나은 방법을 찾아야 하는 절박함이 커지고 있습니다 . "

구체적으로, 팬에서 벗어나 일종의 액체 냉각 방식 으로 전환해야 할 필요성이 시급 합니다. 예를 들어, 물은 공기보다 비열이 약 4배 높고 밀도는 약 800배 더 높습니다. 즉, 같은 부피의 공기보다 약 3,200배 더 많은 열을 흡수할 수 있습니다. 게다가 물의 열전도율은 공기보다 23.5배 높아 열이 물로 훨씬 더 쉽게 전달됩니다.

"뜨거운 오븐에 손을 넣어도 화상을 입지 않습니다. 하지만 끓는 물에 손을 넣으면 순식간에 3도 화상을 입을 수 있습니다."라고 Airedale by Modine 의 침지 냉각 부문 총괄 매니저인 시머스 이건은 말합니다 . "액체가 열을 훨씬 더 빨리 전달하기 때문입니다."

데이터센터 업계는 대체로 수냉식 냉각이 미래라고 생각합니다. 적어도 AI 중심 데이터센터에서는 그렇습니다. Nortek Data Center Cooling 의 사장인 카린 오버스트리트는 이메일 을 통해 "AI로 인해 랙의 밀도와 온도가 높아짐에 따라 수냉식이 사실상의 해결책이 되었습니다."라고 밝혔습니다.

하지만 액체 냉각을 하는 방법은 간단하고 직관적인 것부터 복잡하고 약간 이상한 것까지 다양합니다.

가장 간단한 방법은 가장 뜨거운 칩에 부착된 냉각판을 통해 차가운 물을 순환시키는 것입니다. 그다음에는 물이 아닌, 냉각판 내부에서 끓어오르는 특수 유전체 유체를 순환시켜 열을 제거하는 것입니다. 세 번째 방법은 서버 전체를 냉각을 유지하는 유체에 담그는 것입니다. 마지막으로 가장 눈에 띄는 방법은 서버를 끓는 액체 통에 담그는 것입니다.

미래의 고급 AI 공장 에서 어떤 방식이 업계 표준이 될까요 ? 지금으로서는 누구도 예측할 수 없습니다. 네 가지 방식이 어떻게 작동하고, 어떤 분야에서 가장 많이 활용될 수 있을지 살펴보겠습니다.


#1
:Single-Phase Direct-to-Chip Cooling 단상 직접 칩 냉각

기술적으로 가장 성숙한 접근 방식은 물을 사용하는 것입니다. 이미 많은 AI 데이터 센터에서 가장 뜨거운 칩에 이러한 직접 칩 냉각 방식을 도입하고 있습니다.

Mikros Technologies와 같은 회사들은 단상 직접 칩 액체 냉각 방식을 추구하고 있습니다. 이 기술에서는 가장 뜨거운 칩 위에 냉각판을 놓습니다. 액체는 냉각판을 통해 순환하면서 열을 제거합니다. Marvell Technology


이 방식에서는 냉각수가 순환할 수 있는 통로가 있는 콜드 플레이트라고 불리는 금속 블록을 칩 바로 위에 놓습니다. 콜드 플레이트는 칩 크기에 맞춰 서버 내부에 설치됩니다. 액체는 보통 물이며, 박테리아 증식을 방지하고 온도를 안정시키며, 동결과 부식을 방지하고, 액체의 점도를 높이기 위해 글리콜이 첨가됩니다. 글리콜과 물의 혼합물은 콜드 플레이트를 통과하면서 열원에서 열을 바로 제거합니다.

글리콜수는 일반적으로 폐쇄 루프 형태로 유지되어 냉각판에서 열교환 장치로 순환합니다. 열교환 장치는 액체를 다시 냉각시킨 후 다시 냉각판으로 되돌립니다.

열교환기 에서 별도의 "시설용수" 루프를 사용하여 글리콜수를 냉각합니다. 시설용수는 전기로 구동되는 냉각 장치인 칠러(chiller) 또는 파이프를 통과하는 물 위로 팬을 사용하여 주변 공기를 불어넣는 실외 장치인 건식 쿨러(dry cooler)에 의해 냉각됩니다. 건식 쿨러는 칠러보다 훨씬 간단하고 에너지 효율이 높지만, 서늘한 기후에서만 작동하며 주변 온도보다 낮게 물을 냉각할 수 없습니다.

이 접근 방식의 한 가지 어려움은 서버의 모든 발열 부품에 냉각판을 부착하는 것이 불가능하다는 것입니다. 에너지 밀도가 가장 높은 부품, 즉 GPU와 일부 CPU에 냉각판을 부착하는 것이 합리적입니다. 전원 공급 장치 나 메모리 장치와 같은 작은 부품은 팬을 이용한 기존 방식으로 냉각하는 것이 좋습니다.

오버스트리트는 " 하이브리드 냉각 솔루션으로 추세가 전환되고 있습니다."라고 말합니다. "서버룸이나 데이터 홀 냉각의 약 80%는 수냉식으로 이루어지고, 약 20%는 기존 공냉 솔루션으로 이루어집니다."


#2
: Two-Phase Direct-to-Chip Cooling 2단계 직접 칩 냉각

GPU 전력 밀도가 안정될 기미가 보이지 않으면서, 칩에 직접 물을 공급하는 방식은 한계에 다다르고 있습니다. 물론 물의 흐름을 늘릴 수는 있지만, 그러면 더 많은 에너지를 소모하게 됩니다. 또는 칩을 더 높은 온도에서 작동시킬 수도 있는데, 이는 성능을 저하시키고 장기적으로 칩의 성능을 저하시킵니다. 다행히 세 번째 방법이 있습니다. 바로 열 교환의 물리적 원리를 더 활용하는 것입니다.


Accelsius와 같은 회사들은 2단계 직접 칩 액체 냉각 방식을 제안하고 있습니다. 이 방식에서는 가장 뜨거운 칩 위에 냉각판을 놓고, 냉각판을 순환하는 액체가 칩 위에서 직접 끓어오릅니다. Big Idea Productions


물리학이 제공하는 추가적인 냉각 능력은 잠열, 즉 액체에서 기체로 상이 변하는 데 필요한 에너지에서 비롯됩니다. GPU에서 액체가 끓어오르면서 기체로 변하는 과정에서 온도는 상승하지 않고 잠열을 흡수합니다.

이것이 기본적으로 2상 직접 칩 냉각의 작동 방식입니다. 이 방식에서는 특수 제작된 유전체 액체가 고에너지 칩 위에 놓인 냉각판을 순환하며 증기로 끓습니다. 이 증기는 열교환기로 다시 보내지고, 열교환기는 시설용수를 사용하여 유체를 냉각합니다.

"냉각하려면 정말 끓는 듯한 열기가 필요합니다." 2단계 칩 직접 냉각 시스템을 만드는 스타트업 ZutaCore 의 최고기술책임자(CTO)인 마이 트롱의 말이다.

물은 대기압에서 100°C에서 끓는데, 이는 칩이 제대로 작동하기에는 너무 높습니다. 따라서 끓는점이 더 낮은 특수 유체가 필요합니다. ZutaCore의 수석 전도사인 샤하르 벨킨은 자사가 사용하는 유체는 허니웰(Honeywell) 과 케무어스(Chemours)와 같은 화학 공급업체에서 공급받으며, 끓는점은 최저 18°C에 불과하다고 설명했습니다. 루프의 압력을 조절하여 끓는점을 높이거나 낮출 수 있습니다. 또한, 이 유체는 유전체입니다. 즉, 외부 전기장 에 의해 분극되지 않는 한 전기적으로 대전되지 않습니다 . 따라서 물과 달리 유체 일부가 전자 장치에 쏟아지더라도 값비싼 장비가 손상되지 않습니다.

물은 뜨거운 칩 위로 흐르면서 온도가 급격히 상승합니다 . 즉, 유입되는 물은 차갑게 유지되어야 하므로 대부분의 기후에서는 냉각기를 사용하여 시설 용수를 냉각해야 합니다.

그러나 끓는 유전체 유체의 경우, 유체의 온도는 거의 동일하게 유지되고 단순히 증기로 상이 변합니다. 즉, 유체와 시설용수 모두 더 높은 온도를 유지할 수 있어 상당한 에너지 절감 효과를 얻을 수 있습니다.

Accelsius 의 제품 마케팅 이사인 Lucas Beran은 "냉판에서 발생하는 매우 효율적인 비등 과정 덕분에 단일상보다 6~8도 더 따뜻한 시설용 물을 사용할 수 있습니다."라고 말했습니다. Accelsius는 2상 직접 칩 액체 냉각 기술을 개발하는 또 다른 스타트업입니다.

2상 냉각 방식은 기존의 단상 수냉 방식보다 유체 유량이 낮아 에너지 소비량이 적고 장비 손상 위험도 낮습니다. 벨킨에 따르면 2상 냉각 방식의 유량은 단상 냉각 방식의 약 5분의 1 수준입니다.

단상 수냉 방식을 사용하면 2,000W로 작동하는 최첨단 칩의 경우 "분당 1갤런의 물을 냉각판에 흘려보내야 합니다."라고 그는 말합니다. "이는 매우 높은 압력과 유량을 의미합니다. 펌핑 비용이 많이 들고, [ 냉각 시스템 ]이 높은 유량으로 인해 실제로 손상을 입을 수 있습니다."




#3
: Single-Phase Immersion Cooling 단상 침지 냉각

칩에 직접 액체를 분사하는 방식은 단순히 공기를 불어넣는 방식보다 훨씬 더 강력한 냉각 용량을 제공하지만, 여전히 냉각을 위해 중간 매개체로 냉각판에 의존합니다.


Sustainable Metal Cloud는 서버 전체를 액체 통에 담가 냉각을 유지하는 단상 침지 냉각 방식을 지지합니다. Firmus Technologi


냉각판을 아예 사용하지 않고 컴퓨터 서버 전체를 냉각수에 담가둘 수 있다면 어떨까요? 일부 회사에서는 바로 그렇게 하고 있습니다.

이 방식에서 데이터 센터는 랙이 아닌 침지 탱크를 중심으로 배치되며, 각 탱크는 대략 냉장고 크기입니다. 볼티모어 에어코일(Baltimore Aircoil Co.) 의 침지 냉각 글로벌 영업 관리자인 레이첼 비엘스타 인(Rachel Bielstein)은 침지 탱크에는 일반적으로 오일과 같은 절연 유체가 채워져 있으며, 이 유체는 비전도성이어야 하며 강력한 열 전달 특성을 가져야 한다고 말합니다. 또한 이 유체는 장기적인 안정성과 낮은 환경 및 화재 위험을 요구합니다.

침지 냉각에서는 모든 것이 동일한 유체로 냉각됩니다. 오일이 열을 흡수한 후, 침지 유체를 냉각하는 다양한 방법이 있습니다. 예를 들어 볼티모어 에어코일(Baltimore Aircoil)은 탱크 내부의 코일과 플레이트를 통해 시설 용수를 순환시키는 열교환기를 설계했다고 비엘슈타인(Bielstein)은 설명합니다. "가열된 물은 외부 냉각기로 펌핑되어 열을 공기 중으로 방출하고, 물을 냉각한 후 다시 열교환기로 보내 탱크에서 더 많은 열을 흡수합니다. 이 과정은 기존 설계 방식보다 최대 51%까지 에너지를 절약합니다."

데이터 센터용 침지 냉각 시스템을 개발하는 싱가포르 소재 Sustainable Metal Cloud (SMC) 팀은 서버 를 침지 냉각 방식과 호환되도록 수정해야 할 사항을 파악했습니다 . 내장 팬을 제거하는 것 외에도, 회사는 칩을 방열판 에 연결하는 방열판 소재를 교체했습니다 . 이러한 소재 중 일부는 오일에 의해 분해되기 때문입니다. SMC와 자매 회사인 Firmus의 공동 CEO인 올리버 커티스는 IEEE Spectrum과의 인터뷰에서 이러한 수정 사항은 작지만 SMC 시스템 작동에 중요하다고 말했습니다 .

"저희는 컴퓨터에 가장 적합한 운영 환경을 구축했습니다."라고 커티스는 말합니다. "팬이 없기 때문에 먼지, 움직임, 진동이 전혀 없습니다. 게다가 완벽한 작동 온도까지 갖추고 있죠."

일부 칩은 전력 밀도가 너무 높아 느리게 움직이는 오일로 완전히 냉각할 수 없습니다. 이러한 경우에는 오일 흐름을 증가시키기 위해 냉각판을 추가해야 합니다. Airedale by Modine의 Egan은 이러한 첨단 칩 냉각에 있어 "단상 침지 방식은 이미 한계에 도달했습니다."라고 말합니다. 그는 침지 냉각에 냉각판을 추가하면 "더욱 진보된 칩 아키텍처를 확실히 지원하고 단상 유전체 유체의 열 부하를 줄일 수 있을 것입니다. 하지만 새로운 과제는 이제 두 개의 별도 냉각 루프 시스템이 필요하다는 것입니다."라고 덧붙입니다.


#4
: Two-Phase Immersion Cooling 2상 침지 냉각

단 하나의 냉각 방법으로는 충분하지 않다면, 여러 방법을 합쳐서 데이터 센터를 끓는 기름통에 담그는 건 어떨까요?


델라웨어주 뉴어크에 있는 Chemours 연구실에서 Chemours 팀은 2상 침지 냉각을 위해 특별히 제조된 액체를 개발하고 있습니다. 이 방식에서는 서버를 액체가 담긴 통에 담그면 액체가 뜨거운 부품 위에서 끓어올라 시스템을 냉각합니다. Chemours


일부 회사는 이미 그렇게 하고 있습니다.

Accelsius의 Beran은 "2상 침지 방식은 데이터 센터 액체 냉각 분야에서 아마도 가장 획기적인 기술일 것입니다."라고 말합니다.

하지만 Chemours 의 데이터센터 액체 냉각 부문 글로벌 마케팅 매니저인 브랜든 마셜은 이것이 업계가 향하는 방향이라고 말합니다. "저희가 수행한 연구 결과에 따르면 2단계 침지 방식이 상당히 합리적인 방식으로 발전할 것으로 예상합니다."

마셜은 끓는점이라고도 하는 2상 액체가 잠열로 인해 단상 액체보다 10배에서 100배 더 큰 냉각 용량을 가진다고 주장합니다. 2상 직접 칩 냉각 방식이 오늘날의 칩에는 효과적일 수 있지만, 메모리 모듈과 전원 공급 장치와 같은 많은 구성 요소는 여전히 공랭 방식으로 냉각해야 합니다. CPU와 GPU가 더욱 강력해짐에 따라 이러한 메모리 모듈과 전원 공급 장치도 수냉 방식을 필요로 하게 될 것입니다.



"그 문제 목록은 사라지지 않을 겁니다."라고 마샬은 말합니다. "침지 냉각 기술은 앞으로 더 많은 관심을 받을 것으로 생각합니다. 사람들은 단상 직접 칩 기술을 통해 랙에 물을 넣는 것처럼, 랙 내부에 2상 유체를 넣는 것에 점점 더 익숙해질 것입니다."

델라웨어주 뉴어크에 있는 Chemours 연구진은 자체 개발한 특수 유체로 채워진 탱크에 여러 대의 고출력 서버를 배치했습니다. 이 유체는 유전체로 단락을 일으키지 않으며, 부식성이 없고 칩을 담을 정확한 온도에서 끓도록 설계되었습니다. 이 유체는 뜨거운 칩 위에서 바로 끓습니다. 그 후, 증기는 탱크 상단이나 후면 패널의 냉각된 표면에 응축됩니다.

그 응축기는 순환하는 시설 용수로 냉각됩니다. "필요한 건 끓는점보다 약 6도 낮은, 즉 약 43°C의 물을 탱크로 직접 보내는 것뿐입니다."라고 마셜은 말합니다. "액체는 탱크 내부에서 바로 응축되어 다시 액체로 변합니다. 유체를 응축하는 데 필요한 온도 덕분에 대부분의 경우 냉각기나 기타 복잡한 기계 설비가 필요 없습니다."

Chemours 연구진의 최근 사례 연구 에 따르면 , 대부분의 기후 조건에서 2상 침지 냉각은 단상 침지 냉각이나 단상 직접 칩 냉각보다 비용 효율적입니다. 예를 들어, 버지니아주 애쉬번의 10년 총소유비용은 단상 직접 칩 냉각 구성의 경우 4억 3,600만 달러, 단상 침지 냉각 구성의 경우 4억 9,100만 달러, 그리고 2상 침지 냉각 구성의 경우 4억 3,300만 달러로 추산되었습니다. 이는 주로 전력 소모량이 낮고 기계 시스템이 간소화되었기 때문입니다.

비평가들은 2상 침지 방식이 장비 유지 관리를 어렵게 만든다고 주장합니다. 특히 오일이 매우 특수하고 비싸며 증발하기 쉽기 때문입니다. 베란은 "침지 탱크에 있으면 금전적 손실이 발생하기 때문에 정비가 다소 어려울 수 있습니다."라고 말합니다.

하지만 모딘 에어데일(Airedale by Modine)의 이건(Egan)은 자사가 엣지(edge) 용도에 적합한 침지형 탱크에서 이러한 문제를 대부분 방지하는 방법을 개발했다고 밝혔습니다. "저희 EdgeBox는 탱크 내부 증기층을 아래쪽으로 유지하고, 그 위에 공기층을 두어 탱크 뚜껑에 더 가깝게 유지하도록 특별히 설계되었습니다. (짧은 유지 보수 기간 동안) 탱크를 열면 증기층이 탱크 밖으로 '유출'되지 않습니다."라고 이건은 이메일을 통해 밝혔습니다. "증기는 공기보다 훨씬 무거워서 탱크 내부 아래쪽에 머물러 있습니다. 최소한의 증기 손실은 시스템 내부의 유체 완충 탱크를 통해 상쇄됩니다."

가까운 미래에는 AI의 전력 수요가 계속 증가할 것이고, 이에 따라 냉각의 필요성도 커질 것이라는 게 업계의 공통된 의견입니다.

"AI가 완전히 무너지고 모두가 AI 클러스터 구축을 중단하고 대규모 언어 모델 에 대한 학습을 수행하는 하드웨어 구축을 중단하지 않는 한 , 우리는 냉각 기술을 계속 발전시켜야 하며 열 문제도 해결해야 합니다."라고 마샬은 말합니다.

앞으로 다가올 AI 공장에서는 어떤 냉각 기술이 주도하게 될까요? 아직 단정 지을 수는 없습니다. 하지만 급변하는 데이터 센터 환경은 이 분야에 많은 창의성과 혁신을 불러일으키고 있습니다.

Mikros Technologies의 Drew Matter는 "액체 냉각에 대한 시장은 매우 클 뿐만 아니라, 재미있는 엔지니어링 문제이기도 합니다."라고 말했습니다.

https://spectrum.ieee.org/data-center-liquid-cooling?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2025-10-14&utm_content=hero1


댓글 없음: