DeepMind’s Quest for Self-Improving Table Tennis Agents
How robots can learn new skills by challenging each other
Hardly a day goes by without impressive new robotic platforms emerging from academic labs and commercial startups worldwide. Humanoid robots in particular look increasingly capable of assisting us in factories and eventually in homes and hospitals.
DeepMind의 자기개선 탁구 에이전트 탐구
로봇이 서로 도전하여 새로운 기술을 배울 수 있는 방법
전 세계의 학계 연구실과 상업적 스타트업 에서 인상적인 새로운 로봇 플랫폼이 등장하지 않는 날은 거의 없습니다 . 특히 인간형 로봇은 공장 에서 , 나아가 가정과 병원 에서 우리를 도울 수 있는 능력이 점점 더 향상되고 있는 것처럼 보입니다 . 그러나 이러한 기계가 진정으로 유용하려면 로봇 본체를 제어할 수 있는 정교한 "두뇌"가 필요합니다. 전통적으로 로봇을 프로그래밍하려면 전문가가 복잡한 동작을 세심하게 스크립팅하고 컨트롤러 이득이나 동작 계획 가중치와 같은 매개변수를 철저히 조정하여 원하는 성능을 달성하는 데 수많은 시간을 소비해야 합니다. 머신 러닝 (ML) 기술이 유망한 반면, 새로운 복잡한 동작을 학습해야 하는 로봇은 여전히 상당한 인간의 감독과 리엔지니어링이 필요합니다. Google DeepMind 에서는 다음과 같이 자문했습니다. 로봇이 더욱 전체적이고 지속적으로 학습하고 적응할 수 있도록 하려면 어떻게 해야 할까요? 중요한 개선이나 새로운 기술에 대한 전문가의 개입 병목 현상을 줄일 수 있을까요?
이 질문은 저희 로봇 연구 의 원동력이었습니다 . 저희는 두 로봇 에이전트가 서로 경쟁하며 더욱 높은 수준의 자율적인 자기 개선을 달성할 수 있는 패러다임을 탐구하고 있으며, 단순히 고정되거나 제한적인 적응성을 가진 머신러닝 모델로 미리 프로그래밍된 시스템을 넘어, 현장에서 다양한 기술을 학습할 수 있는 에이전트로 나아가고 있습니다. 알파고 와 알파폴드 와 같은 시스템을 활용한 머신러닝 분야의 이전 연구를 바탕으로, 저희는 테스트베드로서 까다로운 스포츠인 탁구 에 주목했습니다 .
우리가 탁구를 선택한 이유는 바로 제약적이면서도 매우 역동적인 환경 속에서 로봇 공학의 가장 어려운 과제들을 많이 포함하고 있기 때문입니다. 탁구는 로봇이 여러 가지 어려운 기술을 모두 익혀야 합니다. 단순한 지각 능력뿐 아니라, 정확한 각도와 속도로 공을 가로채기 위한 매우 정밀한 제어 능력, 그리고 상대를 제압하기 위한 전략적 의사 결정 능력까지 요구됩니다. 이러한 요소들은 실시간 상호작용, 복잡한 물리 법칙, 고수준 추론, 그리고 적응형 전략의 필요성을 처리할 수 있는 강력한 학습 알고리즘을 개발하고 평가하는 데 이상적인 분야입니다 . 이러한 역량은 제조 분야는 물론, 잠재적으로 비구조화된 가정 환경과 같은 분야에도 직접 적용될 수 있습니다
자기 계발 챌린지
표준 머신 러닝 접근 방식은 지속적이고 자율적인 학습을 구현하는 데 종종 부족함을 느낍니다. 로봇이 전문가를 모방하여 학습하는 모방 학습은 일반적으로 모든 기술이나 변형에 대해 방대한 양의 인간 시연을 제공해야 합니다. 전문가 데이터 수집 에 대한 이러한 의존성은 로봇이 지속적으로 새로운 작업을 학습하거나 시간이 지남에 따라 성능을 개선하도록 하려면 심각한 병목 현상이 됩니다. 마찬가지로, 보상이나 처벌에 따라 시행착오를 통해 에이전트를 훈련시키는 강화 학습은 인간 설계자가 다면적인 작업에 대한 원하는 행동을 정확하게 포착하기 위해 복잡한 수학적 보상 함수를 세밀하게 설계해야 하며, 로봇이 새로운 기술을 개선하거나 학습해야 할 때 이를 조정해야 하므로 확장성이 제한됩니다. 본질적으로, 이 두 가지 잘 확립된 방법 모두 전통적으로 상당한 인간의 개입을 필요로 하며, 특히 로봇이 초기 프로그래밍을 넘어 지속적으로 스스로 개선하는 것이 목표인 경우 더욱 그렇습니다. 따라서 저희는 팀에 직접적인 과제를 제시했습니다. 로봇은 학습-개선 루프 동안 최소한의 또는 전혀 인간의 개입 없이 자신의 기술을 학습하고 향상시킬 수 있을까요?
우리가 탐구한 혁신적인 접근 방식 중 하나는 알파고 에서 사용된 전략을 그대로 반영하는 것입니다 . 에이전트들이 서로 경쟁하며 학습하도록 하는 것입니다. 두 로봇 팔이 탁구를 하도록 하는 방식을 실험했는데 , 이는 간단하면서도 강력한 아이디어입니다. 한 로봇이 더 나은 전략을 발견하면, 상대는 이에 적응하고 실력을 향상시켜야 하며, 이는 실력 향상의 악순환을 만들어냅니다.
이러한 패러다임에 필요한 광범위한 훈련을 가능하게 하기 위해, 완전 자율형 탁구 환경을 설계했습니다. 이 설정은 자동 공 수집과 원격 모니터링 및 제어 기능을 갖춘 연속 작동을 가능하게 하여, 직접 개입하지 않고도 장시간 실험을 수행할 수 있었습니다. 첫 번째 단계로, 강화 학습을 사용하여 시뮬레이션에서 로봇 에이전트(두 로봇에 독립적으로 복제됨)를 성공적으로 훈련시켜 협동 랠리를 수행했습니다. 실제 로봇 대 로봇 환경에서 에이전트를 몇 시간 동안 미세 조정하여 장시간 랠리를 수행할 수 있는 정책을 개발했습니다. 그 후, 경쟁적인 로봇 대 로봇 플레이를 다루기로 했습니다.
상자 밖에서, 협력 에이전트는 경쟁 플레이에서 잘 작동하지 않았습니다. 이는 예상된 것이었는데, 협력 플레이에서는 랠리가 좁은 구역에 자리 잡아 에이전트가 반격할 수 있는 공의 분포가 제한되기 때문입니다. 저희의 가설은 경쟁 플레이로 계속 학습하면 각 로봇이 상대를 이길 때마다 보상을 주면서 이 분포가 천천히 확장될 것이라는 것이었습니다. 유망해 보였지만, 현실 세계에서 경쟁적 자가 플레이를 통한 학습 시스템은 상당한 난관을 제시했습니다. 제한된 모델 크기의 제약을 고려할 때 분포의 증가는 상당히 급격했습니다. 본질적으로, 모델이 이전 샷을 잊지 않고 새로운 샷을 효과적으로 처리하는 법을 배우는 것은 어려웠고, 짧은 랠리 후 한 로봇이 쉽게 이길 수 있는 공을 치고 다른 로봇은 그것을 되돌릴 수 없는 국소 최소값에 빠르게 도달했습니다.
로봇 대 로봇 경쟁 플레이는 여전히 까다로운 문제로 남아 있지만, 저희 팀은 로봇이 인간을 상대로 경쟁적으로 플레이할 수 있는 방법 도 연구 했습니다. 훈련 초기 단계에서 인간은 공을 인플레이 상태로 유지하는 데 더 능숙했고, 그 결과 로봇이 학습할 수 있는 슛의 분포가 증가했습니다. 하지만 저희는 상세한 기술 설명자를 갖춘 저수준 컨트롤러와 저수준 기술을 선택하는 고수준 컨트롤러로 구성된 정책 아키텍처를 개발해야 했습니다. 또한, 시스템이 실시간으로 보이지 않는 상대에 적응할 수 있도록 제로 샷 시뮬레이션-실제 플레이 방식을 구현하는 기술도 개발해야 했습니다. 사용자 연구에서 로봇은 최고 수준의 플레이어에게는 모든 경기에서 패배했지만, 초보자에게는 모든 경기에서 승리했고 중급 플레이어에게는 약 절반의 경기에서 승리하여 아마추어 수준의 뛰어난 성과를 보여주었습니다. 이러한 혁신과 협동 플레이보다 더 나은 출발점을 바탕으로, 저희는 로봇 대 로봇 경쟁 훈련으로 돌아가 빠르게 확장해 나갈 수 있는 유리한 위치에 있습니다.
AI 코치: VLM이 게임에 참여합니다
우리가 조사한 두 번째 흥미로운 아이디어는 Gemini와 같은 시각 언어 모델(VLM) 의 힘을 활용하는 것입니다 . VLM이 로봇 플레이어를 관찰하고 개선 방향을 제시하는 코치 역할을 할 수 있을까요?
이 프로젝트의 중요한 통찰력은 VLM을 설명 가능한 로봇 정책 검색에 활용할 수 있다는 것입니다. 이러한 통찰력을 바탕으로, VLM의 검색, 추론, 최적화 기능을 활용하여 로봇 행동의 반복적인 학습과 적응을 가능하게 하는 단일 프롬프트인 SAS 프롬프트 (요약, 분석, 종합)를 개발했습니다. 이 접근 방식은 LLM 내에서 완전히 구현되는 설명 가능한 정책 검색 방법론의 새로운 계열의 초기 사례로 볼 수 있습니다. 또한, 보상 함수가 없습니다. VLM은 과제 설명에 제공된 관찰 결과에서 보상을 직접 추론합니다. 따라서 VLM은 학생의 성과를 지속적으로 분석하고 개선 방안을 제시하는 코치 역할을 할 수 있습니다.
진정으로 학습된 로봇공학을 향하여: 낙관적인 전망
로봇 공학의 미래를 위해서는 기존 프로그래밍 및 머신러닝(ML) 기술의 한계를 극복하는 것이 필수적입니다. 현재 개발 중인 자율적인 자기 계발을 가능하게 하는 방법들은 인간의 고된 노력에 대한 의존도를 줄여줍니다. 저희의 탁구 프로젝트는 로봇이 복잡한 기술을 더욱 자율적으로 습득하고 개선할 수 있는 길을 모색합니다. 로봇 간 학습을 안정화하고 VLM 기반 코칭을 확장하는 등 상당한 과제가 남아 있지만, 이러한 접근 방식은 특별한 기회를 제공합니다. 이러한 방향으로의 지속적인 연구를 통해 구조화되지 않은 세상에서 효과적이고 안전하게 작동하는 데 필요한 다양한 기술을 학습할 수 있는 더욱 유능하고 적응력 있는 기계가 탄생할 것이라고 낙관합니다. 이 여정은 복잡하지만, 진정으로 지능적이고 도움이 되는 로봇 파트너가 가져올 잠재적인 성과는 그만한 가치가 있습니다.
DeepMind’s Quest for Self-Improving Table Tennis Agents
kcontents
댓글 없음:
댓글 쓰기