Your Laptop Isn’t Ready for LLMs. That’s About to Change
Local AI is driving the biggest change in laptops in decades
Odds are the PC in your office today isn’t ready to run AI large language models (LLMs).
Today, most users interact with LLMs via an online, browser-based interface. The more technically inclined might use an application programming interface or command line interface. In either case, the queries are sent to a data center, where the model is hosted and run. It works well, until it doesn’t; a data-center outage can take a model offline for hours. Plus, some users might be unwilling to send personal data to an anonymous entity.
오늘날 사무실에 있는 PC는 AI 대규모 언어 모델 (LLM)을
실행할 준비가 되어 있지 않을 가능성이 큽니다.
컴퓨터에서 로컬로 모델을 실행하면 상당한 이점을 얻을 수 있습니다. 지연 시간이 짧아지고, 개인적 요구 사항을 더 잘 파악할 수 있으며, 데이터를 개인 컴퓨터에 보관함으로써 개인 정보를 보호할 수 있습니다.
하지만 1년 이상 된 일반적인 노트북의 경우, PC에서 로컬로 실행할 수 있는 유용한 AI 모델 의 수는 거의 없습니다. 이 노트북은 4~8코어 프로세서( CPU )를 탑재하고 있고, 전용 그래픽 칩( GPU )이나 신경망 처리 장치( NPU ) 가 없으며 , RAM 용량이 16GB에 불과하여 LLM(학습자)에게는 성능이 부족합니다.
NPU와 GPU가 탑재된 최신 고성능 PC 노트북 조차도 어려움을 겪을 수 있습니다. 가장 큰 AI 모델은 1조 개가 넘는 매개변수를 가지며, 수백 기가바이트 의 메모리가 필요합니다. 이러한 모델의 소규모 버전도 있고, 심지어 대량으로 생산되는 모델도 있지만, 이러한 모델은 전문 AI 데이터 센터 만이 처리할 수 있는 대규모 모델의 지능을 갖추지 못하는 경우가 많습니다 .
모델의 성능을 높이기 위한 다른 AI 기능들을 고려하면 상황은 더욱 악화됩니다. 로컬 하드웨어에서 실행되는 소규모 언어 모델(SLM) 은 이러한 기능들을 축소하거나 완전히 생략합니다. 이미지 및 비디오 생성 역시 노트북에서 로컬로 실행하기 어려우며, 최근까지는 고사양 타워 데스크톱 PC에서만 가능했습니다.
그것이 AI 도입의 문제입니다.
AI 모델을 로컬에서 실행할 수 있도록 하려면 노트북 내부 하드웨어와 이를 구동하는 소프트웨어의 업그레이드가 필요합니다. 이는 엔지니어들에게 과거의 흔적을 버리고 PC를 근본적으로 재창조할 기회를 제공하는 노트북 디자인 변화의 시작입니다.
NPU가 채팅에 참여합니다
PC의 AI 성능을 높이는 가장 확실한 방법은 CPU와 함께 강력한 NPU를 배치하는 것입니다.
NPU는 대부분의 AI 모델이 의존하는 행렬 곱셈 계산을 위해 설계된 특수 칩입니다 . 이러한 행렬 연산은 고도로 병렬화되어 있기 때문에, 이미 CPU보다 고도로 병렬화된 작업에 더 뛰어난 GPU가 AI 데이터 센터의 필수 선택지가 된 것입니다.
하지만 NPU는 3D 그래픽과 같은 다른 작업이 아닌 이러한 행렬 연산을 처리하도록 특별히 설계되었기 때문에 GPU보다 전력 효율이 높습니다 . 이는 휴대용 소비자 기술에서 AI를 가속화하는 데 중요합니다. 또한 NPU는 노트북 GPU보다 저정밀도 연산을 더 잘 지원하는 경향이 있습니다. AI 모델은 노트북과 같은 휴대용 하드웨어의 계산 및 메모리 요구량을 줄이기 위해 저정밀도 연산을 사용하는 경우가 많습니다.
Microsoft 의 기술 펠로우인 Steven Bathiche 는 "NPU의 전체 구조는 실제로 텐서(다차원 숫자 배열)의 데이터 유형을 중심으로 설계되었습니다."라고 말했습니다 . "NPU는 이러한 워크로드에 훨씬 더 특화되어 있습니다. 따라서 초당 3조 건의 연산(TOPS)을 처리할 수 있는 CPU에서 Microsoft의 Copilot+ 기능을 구동할 수 있는 Qualcomm의 Snapdragon X 칩 에 내장된 NPU로 전환되었습니다 ." 여기에는 AI를 사용하여 스크린샷을 분석하여 사용자의 사용 내역을 검색 가능한 타임라인으로 생성하는 Windows Recall 과 이미지에서 배경이나 특정 객체를 제거할 수 있는 Windows Photos의 Generative Erase가 포함됩니다 .
Qualcomm이 Windows 노트북에 NPU를 제공한 최초의 기업이라는 주장이 있지만 , 이로 인해 AMD 와 Intel 도 포함된 NPU TOPS 경쟁이 시작되었으며 , 경쟁은 이미 NPU 성능을 끌어올리고 있습니다.
2023년, 퀄컴의 스냅드래곤 X 이전에는 NPU를 탑재한 AMD 칩이 흔하지 않았으며, 기존 칩은 약 10 TOPS의 성능을 제공했습니다. 현재 AMD와 인텔은 스냅드래곤과 경쟁할 수 있는 NPU를 보유하고 있으며, 40~50 TOPS의 성능을 제공합니다 .
Dell의 곧 출시될 Pro Max Plus AI PC는 최대 350 TOPS(초당 최고 연산)의 성능을 보장하는 Qualcomm AI 100 NPU를 탑재하여 성능을 한층 더 끌어올릴 예정입니다 . 이는 불과 몇 년 전 출시된 최고 성능의 NPU 대비 무려 35배 향상된 성능입니다. 이 선을 오른쪽으로 긋는다면 수천 TOPS의 성능을 낼 수 있는 NPU가 불과 몇 년 안에 등장할 것임을 의미합니다.
수억 개의 매개변수를 가진 최첨단 모델을 실행하려면 몇 개의 TOPS가 필요할까요? 아무도 정확히 알지 못합니다. 오늘날의 소비자용 하드웨어에서는 이러한 모델을 실행할 수 없기 때문에 실제 테스트를 수행할 수 없습니다. 하지만 우리가 그러한 기능을 구현할 수 있는 단계에 있다는 것은 당연한 일입니다. 또한 LLM이 NPU의 유일한 사용 사례는 아니라는 점도 주목할 만합니다. 퀄컴의 AI 및 머신러닝 제품 관리 책임자인 비네시 수쿠마르는 AI 이미지 생성 및 조작은 NPU나 고성능 GPU 없이는 어려운 작업의 한 예라고 말합니다 .
더 나은 AI를 위한 균형 잡힌 칩 구축
더 빠른 NPU는 초당 더 많은 토큰을 처리하여 AI 모델을 사용할 때 더 빠르고 유연한 경험을 제공합니다. 하지만 로컬 하드웨어에서 AI를 실행하는 데에는 단순히 더 크고 성능이 뛰어난 NPU를 사용하는 것 이상의 의미가 있습니다.
AMD의 기업 펠로우 디자인 엔지니어인 마이크 클라크 는 PC에서 AI를 가속화하는 칩을 설계하는 기업들이 NPU에만 모든 것을 걸 수는 없다고 말합니다. AI가 PC가 처리해야 할 작업을 대체하는 것이 아니라, 오히려 추가하는 것이기 때문입니다.
"우리는 낮은 지연 시간, 더 작은 데이터 유형 처리, 코드 분기 처리 등 전통적인 워크로드에 능숙해야 합니다. 포기할 수는 없지만, AI는 여전히 능숙하게 처리하고 싶습니다."라고 클라크는 말합니다. 그는 또한 "CPU는 AI 워크로드를 위한 데이터 준비에 사용되므로" 부적합한 CPU는 병목 현상이 될 수 있다고 지적했습니다.
NPU는 GPU와 경쟁하거나 협력해야 합니다. PC에서는 대용량 내장 메모리를 갖춘 고성능 AMD 또는 Nvidia GPU를 사용하는 경우가 많습니다. Nvidia GeForce RTX 5090 의 사양은 최대 3,352 TOPS의 AI 성능을 제공하며, 이는 Qualcomm AI 100보다도 훨씬 뛰어납니다.
하지만 여기에는 큰 단점이 있습니다. 바로 전력입니다. RTX 5090은 성능이 매우 뛰어나지만 자체적으로 최대 575W의 전력 을 소모하도록 설계되었습니다. 노트북용 모바일 버전은 전력 소모량이 더 적지만 여전히 최대 175W를 소모하여 노트북 배터리를 빠르게 소모할 수 있습니다.
인텔의 클라이언트 AI 제품 매니저인 사이먼 응 은 "NPU가 저전력으로 훨씬 더 효율적으로 작업을 수행할 수 있을 것으로 기대하고 있다"고 말했습니다. AMD의 라이젠 AI 제품 관리 이사 인 라케시 아니군디도 이에 동의합니다. 그는 AI 워크로드는 비디오 인코딩이나 그래픽 렌더링과 같은 다른 까다로운 작업보다 실행 시간이 더 오래 걸리는 경향이 있기 때문에 저전력 작동이 특히 중요하다고 덧붙였습니다. 그는 "항상 작동하며 사용자의 명령을 경청하는 AI 개인 비서처럼 장시간 작동해야 할 것입니다."라고 말했습니다.
이러한 경쟁적인 우선순위로 인해 칩 설계자와 시스템 설계자는 AI PC, 특히 노트북과 같이 배터리 전원에 의존하는 경우가 많은 PC에서 실리콘과 전력을 어떻게 할당할지에 대해 어려운 결정을 내려야 합니다.
AMD의 수석 펠로우 디자인 엔지니어인 마헤쉬 수브라모니 는 "더 큰 SoC가 얇고 가벼운 폼 팩터에서 요구 사항에 맞는 성능을 발휘할 수 있도록 시스템 온 칩을 설계하는 방식에 매우 신중해야 합니다 ."라고 말했습니다
AI에 있어서는 메모리가 중요합니다
CPU와 GPU와 함께 NPU를 탑재하면 AI 작업에서 평균적인 PC 성능이 향상될 것입니다. 하지만 AI가 PC 아키텍처에 가져올 혁명적인 변화는 이것뿐만이 아닙니다. 어쩌면 훨씬 더 근본적인 또 다른 변화가 있을지도 모릅니다. 바로 메모리입니다.
이는 AI의 문제입니다. 모델은 많은 양의 메모리를 필요로 하며, 전체 모델을 한 번에 메모리에 로드해야 합니다. 시스템과 GPU 간에 메모리를 분할하는 기존 PC 아키텍처는 이러한 요구 사항을 충족하지 못합니다.
AMD 부사장 겸 최고기술책임자(CTO)인 조 마크리는 "별도의 GPU를 사용할 때는 별도의 메모리 서브시스템이 필요합니다."라고 설명했습니다 . "CPU와 GPU 간에 데이터를 공유하려면 메모리에서 데이터를 꺼내 PCI Express 버스를 통해 GPU 메모리에 저장하고, 처리한 후 다시 원래 위치로 옮겨야 합니다." 마크리는 이러한 과정이 전력 소모를 증가시키고 사용자 경험을 저하시킨다고 설명했습니다 .
해결책은 빠르고 상호 연결된 메모리 버스를 통해 모든 시스템 리소스가 동일한 메모리 풀에 접근할 수 있도록 하는 통합 메모리 아키텍처입니다. Apple의 자체 개발 실리콘은 아마도 통합 메모리 아키텍처를 적용한 칩의 가장 잘 알려진 최근 사례일 것입니다. 그러나 현대 PC에서는 통합 메모리가 거의 사용되지 않습니다.
AMD는 노트북 시장에서도 이러한 움직임을 보이고 있습니다. AMD는 2025년 CES ( Consumer Electronics Show) 에서 고급 노트북을 겨냥한 새로운 APU 제품군인 Ryzen AI Max 를 발표했습니다 .
Ryzen AI Max는 Radeon 브랜드 GPU 코어와 동일한 실리콘에 Ryzen CPU 코어를 탑재하고, 50 TOPS(초당 최고 성능) NPU를 통합 메모리 아키텍처를 갖춘 단일 실리콘에 배치합니다. 덕분에 CPU, GPU, NPU는 최대 128GB의 시스템 메모리 에 접근할 수 있으며 , 이 메모리는 세 프로세서 모두에서 공유됩니다. AMD는 이러한 전략이 소비자용 PC의 메모리 및 성능 관리에 이상적이라고 생각합니다. Subramony는 "모든 것을 단일 써멀 헤드로 통합함으로써 전체 전력 소모량을 관리할 수 있게 되었습니다."라고 말했습니다.
Ryzen AI Max는 HP Zbook Ultra G1a 와 Asus ROG Flow Z13 을 포함한 여러 노트북에 이미 탑재되어 있습니다 . 또한 Framework Desktop 과 GMKtec EVO-X2 AI 미니 PC 와 같이 덜 알려진 브랜드의 여러 미니 데스크톱 에도 탑재됩니다 .
인텔과 엔비디아도 예상치 못한 방식으로 이 대열에 합류할 예정입니다. 9월, 두 회사는 인텔 CPU 코어와 엔비디아 GPU 코어를 결합한 칩을 판매하기 위한 제휴를 발표했습니다. 아직 세부 사항은 공개되지 않았지만, 칩 아키텍처에는 통합 메모리와 인텔 NPU가 포함될 가능성이 높습니다.
이러한 칩이 널리 보급된다면 PC 아키텍처를 획기적으로 변화시킬 것입니다. 이전보다 훨씬 더 큰 메모리 풀에 대한 액세스를 제공하고, CPU, GPU, NPU를 면밀히 모니터링하고 제어할 수 있는 하나의 실리콘 칩으로 통합합니다. 이러한 요소들 덕분에 AI 워크로드를 특정 시점에 가장 적합한 하드웨어로 쉽게 분산할 수 있게 될 것입니다.
안타깝게도 이러한 칩은 PC 업그레이드 및 수리를 더욱 어렵게 만들 것입니다. 통합 메모리 아키텍처를 사용하는 칩은 일반적으로 CPU, GPU, NPU, 메모리를 PC 메인보드에 물리적으로 분리할 수 없는 단일 패키지로 통합하기 때문입니다. 이는 CPU, GPU, 메모리를 개별적으로 교체할 수 있는 기존 PC와는 대조적입니다.
AI에 대한 Microsoft의 강경한 입장은 Windows를 다시 쓰고 있습니다.
macOS는 매력적이고 직관적인 사용자 인터페이스 로 높은 평가를 받고 있으며 , Apple Silicon 칩은 AI에 유용할 수 있는 통합 메모리 아키텍처를 갖추고 있습니다. 그러나 Apple의 GPU는 PC에 사용되는 최고 성능의 GPU만큼 성능이 좋지 않으며, 개발자를 위한 AI 도구는 널리 채택되지 않았습니다.
AI 중심 마케팅 회사 Aigency Amsterdam의 공동 창립자인 크리시 크레머스는 올해 초 macOS를 선호하지만, 회사에서는 AI 작업에 Mac 컴퓨터를 사용하지 않는다고 말했습니다. "제 Mac 데스크톱의 GPU는 [AI 워크플로우]를 관리하기 힘들고, 오래된 컴퓨터도 아닙니다."라고 그녀는 말했습니다. "예전에는 Mac이 창의적인 도구였기 때문에 Mac 컴퓨터도 따라잡았으면 좋겠습니다."
이로 인해 경쟁업체가 PC용 AI의 선두주자가 될 가능성이 생겼고, Microsoft도 그 사실을 알고 있습니다.
마이크로소프트는 2024년 빌드 개발자 컨퍼런스에서 Copilot+ PC를 출시했습니다 . 출시 과정에는 여러 문제가 있었는데, 특히 AI를 활용하여 사용자가 PC에서 보거나 들은 내용을 검색할 수 있도록 돕는 핵심 기능인 Windows Recall 의 출시가 부실했던 것이 가장 큰 문제였습니다. 그럼에도 불구하고, AMD와 인텔 모두 2024년 말 NPU가 업그레이드된 새로운 노트북 칩을 출시하면서 PC 업계가 NPU로 나아가는 데 성공했습니다.
빌드 2025에서 마이크로소프트는 윈도우 AI 파운드리 로컬(AI Foundry Local )을 공개했습니다. 이는 인기 오픈소스 대규모 언어 모델 카탈로그를 포함하는 "런타임 스택"입니다 . 마이크로소프트 자체 모델도 사용할 수 있지만, 이 카탈로그에는 알리바바 , 딥시크, 메타 , 미스트랄 AI, 엔비디아, 오픈AI , 스태빌리티 AI, xAI 등 의 수천 개 오픈소스 모델이 포함되어 있습니다.
AI Foundry는 로컬 지식 검색 및 저순위 적응(LoRA)을 위한 API도 제공합니다. 이는 개발자가 AI 모델이 참조할 수 있는 데이터와 그 반응 방식을 사용자 지정할 수 있도록 하는 고급 기능입니다. Microsoft는 또한 개발자가 특정 디바이스 정보를 참조하는 AI 도구를 개발할 수 있도록 지원하는 온디바이스 시맨틱 검색 및 검색 증강 생성 기능 지원을 발표했습니다.
"[AI Foundry]는 스마트해지는 것을 의미합니다. 모든 프로세서를 효율적으로 활용하고, CPU, NPU 등 모든 워크로드에 우선순위를 부여하는 것이 핵심입니다. 개선의 여지가 많고 발전 가능성도 무궁무진합니다."라고 Bathiche는 말했습니다.
PC에서 AGI를 향해
AI 지원 PC 하드웨어의 급속한 발전은 단순한 점진적인 업그레이드를 넘어, 80년대, 90년대, 그리고 2000년대 초에 설계된 PC 아키텍처의 마지막 흔적을 완전히 지워버릴 PC 업계의 새로운 변화를 예고하고 있습니다.
점점 더 강력해지는 NPU, 통합 메모리 아키텍처, 정교한 소프트웨어 최적화 기술이 결합되어 로컬 및 클라우드 기반 AI 간의 성능 격차가 바티쉬와 같은 업계 관계자들조차 놀랄 만큼 빠른 속도로 줄어들고 있습니다.
또한 칩 설계자들은 통합 메모리 서브시스템을 갖춘 더욱 통합된 칩을 개발하고, CPU, GPU, NPU를 단일 칩에 통합하는 방향으로 나아가게 될 것입니다. 이는 고급 노트북과 데스크톱에서도 마찬가지입니다. AMD의 서브라모니는 이 솔루션의 목표가 "AI 워크로드든 고성능 컴퓨팅이든, 사용자들이 손안에 미니 워크스테이션을 들고 다닐 수 있도록 하는 것"이라고 밝혔습니다. "클라우드로 갈 필요가 없을 겁니다."
그렇게 엄청난 변화는 하룻밤 사이에 일어나지 않을 것입니다. 그럼에도 불구하고 PC 업계의 많은 사람들이 AI에 최적화된 방식으로 우리가 매일 사용하는 컴퓨터를 혁신하는 데 전념하고 있다는 것은 분명합니다. 퀄컴의 비네시 수쿠마르는 데이터 센터와 마찬가지로 저렴한 소비자용 노트북도 AGI를 목표로 해야 한다고 생각합니다 .
"퀄컴 기기에서 구동되는 완전한 인공지능(AI)을 원합니다 ."라고 그는 말했다. "바로 그것이 우리가 추구하는 것입니다."




댓글 없음:
댓글 쓰기