보스턴 다이내믹스 구글 딥마인드, 스팟에게 추론하는 법 가르치다 Boston Dynamics and Google DeepMind Teach Spot to Reason

Boston Dynamics and Google DeepMind Teach Spot to Reason

The addition of Gemini Robotics brings embodied AI reasoning to inspection robots

The amazing and frustrating thing about robots is that they can do almost anything you want them to do, as long as you know how to ask properly. In the not-so-distant past, asking properly meant writing code, and while we’ve thankfully moved beyond that brittle constraint, there’s still an irritatingly inverse correlation between ease of use and complexity of task.

https://spectrum.ieee.org/boston-dynamics-spot-google-deepmind

제미니 로보틱스의 합류로 검사 로봇에

인공지능 추론 기능이 내장되었습니다

로봇의 놀랍고도 답답한 점은 제대로 요청하는 방법만 안다면 거의 모든 일을 시킬 수 있다는 것입니다. 그리 오래전이 아닌 과거에는 제대로 요청한다는 것은 코드를 작성하는 것을 의미했지만, 다행히 그 불편한 제약에서 벗어난 지금은 사용 편의성과 작업 복잡성 사이에 짜증스러울 정도로 반비례하는 관계가 여전히 존재합니다.

인공지능(AI)은 이러한 상황을 바꿀 것으로 기대됩니다. AI가 로봇에 구현되어 AI 소프트웨어가 물리적인 형태로 세상에 존재하게 되면, 로봇은 추론과 이해 능력을 갖추게 될 것이라는 아이디어입니다. 하지만 이는 아직 최첨단 기술이며, 연구 분야에서는 AI가 로봇에 구현된 사례를 많이 보아왔지만, 추론 능력을 갖춘 로봇이 실질적인 상업적 가치를 제공할 수 있는 응용 분야를 찾는 것은 쉽지 않았습니다. 보스턴 다이내믹스 는 다족 로봇을 상당한 규모로 상용화한 몇 안 되는 기업 중 하나이며 , 현재 수천 대의 로봇이 현장에서 활약하고 있습니다. 오늘 보스턴 다이내믹스는 자사의 4족 로봇 스팟(Spot) 에 구글 딥마인드의 제미니 로보틱스-ER 1.6을 탑재했다고 발표했습니다 . 이 고수준의 AI 구현 추론 모델은 복잡한 작업에 유용성 과 지능을 더해줍니다 .

이 영상에서는 스팟이 가정 환경에서 활동하는 모습이 나오지만, 이번 파트너십의 핵심은 다족 로봇이 상업적으로 활용 가능성이 입증된 몇 안 되는 분야 중 하나인 검사에 있습니다. 즉, 산업 시설을 돌아다니며 폭발 위험이 있는 곳이 없는지 확인하는 것입니다. 새로운 AI를 탑재한 스팟은 이제 위험한 파편이나 유출물을 자율적으로 탐지하고, 복잡한 계기판과 시창을 읽을 수 있으며, 주변 환경을 이해하는 데 도움이 필요할 때는 시각-언어-행동 모델과 같은 도구를 활용할 수 있습니다.

보스턴 다이내믹스 의 Spot 부사장 겸 총괄 매니저인 마르코 다 실바는 보도자료에서 “Gemini Robotics-ER 1.6과 같은 발전은 로봇이 물리적 세계를 더 잘 이해하고 작동할 수 있도록 하는 중요한 진전입니다.” 라고 밝혔습니다 . “계측기 판독 및 더욱 신뢰할 수 있는 작업 추론과 같은 기능은 Spot이 실제 세계의 문제를 보고 이해하고 완전히 자율적으로 반응할 수 있도록 해줄 것입니다.”

https://youtu.be/LP4-c5AK30g

로봇 이해하기

인공지능과 로봇공학 에 '추론'과 '이해'라는 단어가 점점 더 많이 사용되고 있지만 , 도요타 연구소의 길 프랫이 최근 지적했듯이 , 이러한 단어들이 실제 로봇에게 어떤 의미를 갖는지는 항상 명확하지 않습니다. 구글 딥 마인드 의 로봇공학 책임자인 캐롤리나 파라다는 인터뷰에서 "우리가 이해력을 평가하는 기준은 시스템이 인간처럼 대답하는 방식입니다." 라고 설명했습니다. 로봇이 안정적이고 안전하게 작업을 수행하려면 로봇이 세상을 이해하는 방식과 인간이 세상을 이해하는 방식 사이의 연결성이 매우 중요합니다. 그렇지 않으면 인간이 로봇에게 내리는 지시와 로봇이 작업을 수행하는 방식 사이에 불일치가 발생할 수 있습니다.

위 보스턴 다이내믹스의 영상은 이러한 점을 보여주는 다소 문제가 될 수 있는 예시입니다. 스팟에게 주어진 지시 중 하나는 "거실에 있는 캔을 모두 재활용하라"는 것이었습니다. 영상에서 볼 수 있듯이 스팟은 문제없이 작업을 완료하지만, 캔을 옆으로 잡는 실수를 범합니다. 특히 액체가 남아 있는 캔의 경우, 이렇게 잡는 것은 좋지 않습니다. 인간은 평생 동안 쌓아온 경험을 바탕으로 캔을 어떻게 잡아야 하는지 알기 때문에 이런 실수를 피할 수 있지만, 로봇은 아직 그런 경험을 가지고 있지 않습니다.

파라다는 제미니 로보틱스-ER 1.6이 이러한 상황에 안전 관점에서 접근한다고 말합니다. "로봇에게 물컵을 가져오라고 요청하면, 컵이 떨어질 수 있는 테이블 가장자리에 놓지 않도록 추론합니다. 우리는 로봇이 해서는 안 되는 행동에 대한 수많은 자연어 예시를 포함하는 ASIMOV 벤치마크를 사용하여 이를 추적합니다 ." 현재 버전의 Spot은 조작에 이러한 의미론적 안전 모델을 사용하지 않지만, 향후 버전에서는 물체를 안전하게 잡는 방법에 대해 추론할 수 있도록 할 계획입니다.

Gemini Robotics-ER 1.6은 로봇의 고수준 추론 모델로서 기능하지만, 로봇 자체가 물리적 세계와 상호 작용하는 인터페이스로서의 역할에는 여전히 괴리가 있는 것으로 보입니다. 1.6의 새로운 기능 중 하나는 성공 감지 기능 으로 , 여러 카메라 각도를 결합하여 Spot이 물체를 성공적으로 잡았는지 여부를 더욱 정확하게 판단할 수 있도록 합니다. 물체와의 상호 작용에 전적으로 시각 정보에 의존하는 경우에는 유용하지만, 로봇은 터치 센서나 힘 센서 등 성공적인 파악을 감지하는 다양한 기존 방식을 가지고 있으며, 1.6은 이러한 방식을 활용하지 않습니다. 이러한 차이는 로봇 공학 분야가 여전히 해결하고자 노력하는 근본적인 문제, 즉 물리적 데이터가 필요할 때 모델을 어떻게 학습시켜야 하는가와 관련이 있습니다.

파라다는 "현재 이 모델들은 시각 정보에만 의존합니다."라고 설명합니다. "펜을 집는 방법에 대한 시각적 정보는 웹에 많이 있습니다. 터치 정보가 포함된 충분한 데이터만 있다면 쉽게 학습할 수 있겠지만, 인터넷에는 터치 감지 관련 데이터가 많지 않습니다." Spot을 사용하여 이러한 새로운 검사 기능을 활용하는 고객은 보스턴 다이내믹스와 데이터를 공유해야 하며, 이 데이터의 일부는 보스턴 다이내믹스에서 제공받게 됩니다.

https://youtu.be/kBwxmlI2yHQ

실생활에 유용한 로봇들

보스턴 다이내믹스가 고객을 확보 했다는 사실은 상업용으로 AI 기반 로봇을 배포하는 업계에서 다소 이례적인 사례입니다. 그리고 고객은 로봇을 신뢰할 수 있어야 하는데, AI가 관련된 문제에서는 항상 신뢰 문제가 발생합니다 . 다 실바는 인터뷰에서 "우리는 이 문제를 매우 심각하게 생각합니다."라고 말했습니다. "새로운 딥마인드 기능을 소수의 고객을 대상으로 베타 프로그램을 통해 제공하여 예상되는 문제를 파악하고, 제대로 작동할 것이라고 확신하는 기능만 적극적으로 홍보합니다." 스팟과 같은 로봇은 일정 수준의 유용성을 달성해야 하는데, 다행히 현실 세계에서는 완벽함이 요구되지 않습니다. 다 실바는 "시설 내 대부분의 중요 기반 시설에는 문제가 발생하면 알려주는 계측 장비가 설치되어 있습니다."라고 말했습니다. "하지만 계측 장비가 설치되어 있지 않더라도 주의를 기울이지 않으면 문제가 발생할 수 있는 부분이 많습니다. 우리는 80% 이상의 유용성이 로봇에게 불편함을 주지 않는 임계점이라고 생각합니다. 그 이하로 떨어지면 로봇이 거짓 경보를 울리는 것이고, 운영자는 이를 무시하기 시작할 것입니다."

다 실바와 파라다는 로봇 검사 분야에 여전히 개선의 여지가 많다는 데 동의합니다. 파라다가 지적했듯이, 확장 가능한 상용 플랫폼으로서 Spot의 독보적인 위상은 Gemini Robotics-ER 1.6과 같은 모델을 어떻게 가장 유용하게 활용할 수 있는지 배우고, 그 지식을 보스턴 다이내믹스의 Atlas를 포함한 다른 인공지능 기반 플랫폼에 적용할 수 있는 귀중한 기회를 제공합니다. 그렇다고 Atlas가 차세대 산업 검사 로봇이 될 것이라는 의미는 아닙니다. 하지만 이러한 실제 경험을 통해 세탁물을 집어 들고, 개를 산책시키고, 음료수 캔을 깔끔하게 치우는 안전하고 신뢰할 수 있는 로봇에 한 걸음 더 다가갈 수 있다면, 우리는 모두 기대해 볼 만할 것입니다.

https://spectrum.ieee.org/boston-dynamics-spot-google-deepmind