Construction, IT, Science, Economy etc

"AI의 다음 단계는 단순히 더 많은 데이터가 아닙니다" The Next Frontier in AI Isn’t Just More Data


The Next Frontier in AI Isn’t Just More Data

Reinforcement learning environments prepare AI for messy reality

For the past decade, progress in artificial intelligence has been measured by scale: bigger models, larger datasets, and more compute. That approach delivered astonishing breakthroughs in large language models (LLMs); in just five years, AI has leapt from models like GPT-2, which could hardly mimic coherence, to systems like GPT-5 that can reason and engage in substantive dialogue. And now early prototypes of AI agents that can navigate codebases or browse the web point towards an entirely new frontier.

https://spectrum.ieee.org/reinforcement-learning-environments?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2025-12-02&utm_content=hero1


AI의 다음 단계는 단순히 더 많은 데이터가 아닙니다. 강화 학습 환경은 AI가 복잡한 현실에 대비할 수 있도록 준비시킵니다

지난 10년 동안 인공지능 의 발전은 규모, 즉 더 큰 모델, 더 큰 데이터 세트, 그리고 더 많은 컴퓨팅으로 측정되어 왔습니다. 이러한 접근 방식은 대규모 언어 모델 (LLM) 분야에서 놀라운 혁신을 가져왔습니다. 불과 5년 만에 AI는 일관성을 거의 모방하지 못했던 GPT-2와 같은 모델에서 추론하고 실질적인 대화를 나눌 수 있는 GPT-5와 같은 시스템으로 도약했습니다 . 그리고 이제 코드베이스를 탐색하거나 웹을 탐색 할 수 있는 AI 에이전트 의 초기 프로토타입은 완전히 새로운 지평을 열고 있습니다.

하지만 AI의 규모만으로는 한계가 있습니다. 다음 도약은 더 큰 모델만으로는 이루어지지 않을 것입니다 . 더 나은 데이터와 모델이 학습할 수 있도록 구축된 환경을 결합하는 데서 이루어질 것입니다. 그리고 가장 중요한 질문은 바로 이것입니다. AI를 위한 교실은 어떤 모습일까요?

지난 몇 달 동안 실리콘 밸리는 강화 학습 (RL) 환경 이라고 불리는 이러한 교실을 구축하는 데 수십억 달러를 투자하며 투자를 확대해 왔습니다 . 이러한 환경은 기계가 현실적인 디지털 공간에서 실험하고, 실패하고, 개선할 수 있도록 합니다.

AI 훈련: 데이터에서 경험으로

현대 AI의 역사는 시대별로 전개되었으며, 각 시대는 모델이 소비하는 데이터의 종류에 따라 정의되었습니다. 먼저 인터넷 규모의 데이터셋을 기반으로 사전 학습하는 시대가 도래했습니다. 이러한 상용 데이터 덕분에 기계는 통계적 패턴을 인식하여 인간의 언어를 모방할 수 있었습니다. 그 후, 인간 피드백을 기반으로 한 강화 학습(크라우드 워커를 활용하여 LLM의 응답을 평가하는 기법)과 결합된 데이터가 등장했습니다 . 이러한 기술은 AI를 더욱 유용하고 반응성이 뛰어나며 인간의 선호도에 부합하도록 만들었습니다.

우리는 두 시대를 직접 경험했습니다. Scale AI 에서 모델 데이터의 참호 속에서 일하면서 많은 사람들이 AI의 근본적인 문제로 여기는 문제, 즉 모델을 구동하는 훈련 데이터가 다양하고 정확하며 성능 향상에 효과적이어야 한다는 점을 깨달았습니다. 깨끗하고 구조화되며 전문가가 분류한 데이터로 훈련된 시스템은 비약적인 발전을 이루었습니다. 데이터 문제를 해결함으로써 지난 몇 년 동안 LLM 분야에서 가장 중요한 발전 중 일부를 개척할 수 있었습니다.


오늘날 데이터는 여전히 기반입니다. 지능을 구축하는 원재료입니다. 하지만 우리는 데이터만으로는 더 이상 충분하지 않은 새로운 단계로 접어들고 있습니다. 다음 단계를 개척하려면 고품질 데이터와 무한한 상호작용, 지속적인 피드백, 그리고 행동을 통한 학습을 가능하게 하는 환경을 결합해야 합니다. 강화학습 환경은 데이터를 대체하는 것이 아니라, 모델이 지식을 적용하고, 가설을 검증하고, 현실적인 환경에서 행동을 개선할 수 있도록 함으로써 데이터의 잠재력을 증폭시킵니다.


YouTube


RL 환경의 작동 방식

강화학습 환경에서 모델은 간단한 루프를 통해 학습합니다. 즉, 세상의 상태를 관찰하고, 행동을 취하고, 그 행동이 목표 달성에 도움이 되었는지 여부를 나타내는 보상을 받습니다. 여러 번의 반복을 거치면서 모델은 점차 더 나은 결과로 이어지는 전략을 발견해 나갑니다. 중요한 변화는 학습이 상호작용적으로 이루어진다는 것입니다. 모델은 단순히 다음 토큰을 예측하는 것이 아니라 시행착오와 피드백을 통해 개선됩니다.

예를 들어, 언어 모델은 이미 간단한 채팅 환경에서 코드를 생성할 수 있습니다. 이 모델을 실시간 코딩 환경에 적용하면 , 컨텍스트를 수집하고, 코드를 실행하고, 오류를 디버깅하고, 솔루션을 개선할 수 있으며 , 무언가가 달라집니다. 조언하는 것에서 자율적인 문제 해결로 전환되는 것입니다.

이러한 구분은 중요합니다. 소프트웨어 중심 세계에서 AI가 방대한 저장소에서 프로덕션 수준의 코드를 생성하고 테스트할 수 있는 능력은 역량에 있어 중요한 변화를 가져올 것입니다. 이러한 도약은 단순히 더 큰 데이터 세트에서만 비롯되는 것이 아니라, 에이전트가 인간 프로그래머 처럼 반복을 통해 실험하고, 실수하고, 학습할 수 있는 몰입형 환경에서 비롯될 것입니다. 실제 개발 환경은 매우 복잡합니다. 코더들은 제대로 정의되지 않은 버그, 얽히고설킨 코드베이스, 모호한 요구 사항 등을 처리해야 합니다. AI에게 이러한 난제를 해결하도록 가르치는 것이야말로 AI가 오류가 발생하기 쉬운 시도에서 벗어나 일관되고 신뢰할 수 있는 솔루션을 생성하는 유일한 방법입니다.

AI가 복잡한 현실 세계를 처리할 수 있을까?

인터넷 탐색 또한 복잡합니다. 팝업, 로그인 장벽, 깨진 링크, 그리고 오래된 정보가 일상적인 웹 브라우징 워크플로우 전반에 걸쳐 얽혀 있습니다. 인간은 이러한 혼란을 거의 본능적으로 처리하지만, AI는 웹의 예측 불가능성을 시뮬레이션하는 환경에서 훈련해야만 그 역량을 개발할 수 있습니다. 에이전트는 오류에서 복구하고, 사용자 인터페이스 장애를 인식하고 극복하며, 널리 사용되는 애플리케이션에서 여러 단계로 구성된 워크플로우를 완료하는 방법을 학습해야 합니다.

가장 중요한 환경 중 일부는 전혀 공개되지 않습니다. 정부와 기업은 AI가 실제 상황에 영향을 미치지 않고 중대한 의사결정을 연습할 수 있는 안전한 시뮬레이션을 적극적으로 구축하고 있습니다. 재난 구호를 생각해 보세요. 실제 허리케인 대응 에 검증되지 않은 에이전트를 투입하는 것은 상상도 할 수 없는 일입니다 . 하지만 항만, 도로, 공급망이 시뮬레이션된 환경에서는 에이전트가 수천 번 실패하더라도 점차 최적의 계획을 수립하는 데 능숙해질 수 있습니다.

AI의 모든 주요 발전은 데이터세트에 레이블을 지정하는 주석 작성자, 보상 모델을 훈련하는 연구자, 그리고 LLM(학습 전문가)이 도구를 사용하고 조치를 취할 수 있도록 스캐폴딩을 구축하는 엔지니어 등 보이지 않는 인프라에 의존해 왔습니다. 한때는 방대한 양의 고품질 데이터세트를 찾는 것이 AI의 병목 이었고 , 이 문제를 해결함으로써 이전 발전의 물결이 불붙었습니다. 하지만 오늘날 병목은 데이터가 아니라, 풍부하고 현실적이며 진정으로 유용한 강화학습 환경을 구축하는 것입니다.

AI 발전의 다음 단계는 단순히 규모의 문제가 아닙니다. 강력한 데이터 기반과 기계가 복잡한 현실 세계 시나리오에서 행동하고, 적응하고, 추론하는 방법을 가르치는 상호작용적 환경이 결합된 결과물이 될 것입니다. 코딩 샌드박스, OS 및 브라우저 플레이그라운드, 그리고 안전한 시뮬레이션을 통해 예측은 역량으로 전환될 것입니다

https://spectrum.ieee.org/reinforcement-learning-environments?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2025-12-02&utm_content=hero1

댓글 없음: