"인공지능의 미래는 더 똑똑한 로봇이 아니라, 더 똑똑한 인터페이스에 있다" The Future of Physical AI Isn’t Smarter Robots, It’s Smarter Interfaces

The Future of Physical AI Isn’t Smarter Robots, It’s Smarter Interfaces

Putting the human back into the computing loop, one neural signal at a time

A field technician on a wind turbine, harness clipped, both hands on a wrench, needs to send a command to the diagnostic device hanging at her belt. A logistics worker on a loading dock, gloves on, eyes on the pallet, needs to redirect a connected lift. A person using an assistive mobility device on a crowded street wants to nudge it forward without taking out a phone or speaking aloud. None of these moments call for a smarter robot. They call for a smarter way to be heard by the machines that already exist.

https://spectrum.ieee.org/wetour-robotics-physical-ai-human-interfaces

물리적 인공지능의 미래는 더 똑똑한 로봇이 아니라, 더 똑똑한 인터페이스에 있습다.

인간을 컴퓨팅 과정에 다시 참여시키는 것, 신경 신호 하나하나를 통해.

안전벨트를 매고 양손으로 렌치를 쥔 채 풍력 터빈을 점검하는 현장 기술자는 허리에 매달린 진단 장치에 명령을 보내야 합니다. 장갑을 끼고 팔레트를 주시하는 하역장 물류 작업자는 연결된 리프트의 방향을 조정해야 합니다. 혼잡한 거리에서 보조 이동 장치를 사용하는 사람은 휴대전화를 꺼내거나 큰 소리로 말하지 않고도 장치를 앞으로 밀고 싶어 합니다. 이러한 순간들은 더 똑똑한 로봇을 필요로 하는 것이 아닙니다. 이미 존재하는 기계들이 더 스마트하게 자신의 말을 알아듣도록 하는 방법을 필요로 하는 것입니다.

이 산업은 한쪽 측면에서만 구축되어 왔습니다.

지난 3년간 물리적 인공지능 분야는 로봇 부문에서 놀라운 발전을 이루어냈습니다. 보스턴 다이내믹스 , 피겨, 유니트리 와 같은 기업들은 액추에이터, 이동 방식, 정교함을 10년 전만 해도 상상할 수 없었던 수준으로 끌어올렸습니다. 구글 딥마인드의 제미니 로보틱스는 비정형 환경에서 시각-언어-행동 모델이 할 수 있는 일의 범위를 재정의했습니다. 하드웨어와 기반 모델의 발전은 확실하며, 그 속도는 더욱 빨라지고 있습니다.

하지만 이 순환 고리에는 또 다른 측면이 있으며, 이는 너무 오랫동안 해결된 문제로 여겨져 왔습니다. 인간과 기계 사이의 인터페이스는 40년 동안 화면, 버튼, 음성이라는 세 가지 입력 방식에 기본적으로 의존해 왔습니다. 이러한 방식들은 사용자가 작업을 멈추고, 시선을 아래로 향하게 한 다음, 의도를 구조화된 명령으로 변환할 수 있다는 가정을 전제로 합니다. 그러나 이러한 가정은 작업이 실제 환경으로 옮겨지는 순간 무너집니다. 터빈 위에서, 부두에서, 보도에서 등 손이 바쁘거나 시선이 다른 곳에 집중되어 있거나 말하기가 어려운 모든 환경에서 기존의 인터페이스 방식은 조용히 실패합니다.

공간 의도 융합은 공간 위치, 시각적 맥락, 제스처 의도라는 세 가지 인간 중심 정보 흐름을 동시에 처리하는 것입니다. 사용자의 신체가 인터페이스 역할을 합니다.

인간 측의 병목 현상은 기계 측의 병목 현상만큼이나 중요해지고 있습니다. 그리고 이를 해결하려면 다른 질문이 필요합니다. 로봇의 능력을 어떻게 향상시킬 것인가가 아니라, 로봇이 이미 하고 있는 것처럼 인간이 컴퓨팅 시스템에 어떻게 자연스럽게 참여할 수 있도록 할 것인가입니다.

웨투어 로보틱스의 전략: 컴퓨팅 과정에 인간을 다시 투입하는 것

웨투어 로보틱스 는 물리적 AI의 차세대 아키텍처적 도약은 로봇의 능력을 향상시키는 데 있는 것이 아니라, 연결된 기기들이 이미 누리고 있는 것과 같은 저지연, 고정밀 참여를 통해 인간을 컴퓨팅 네트워크의 핵심 구성 요소로 만드는 데 있다고 확신합니다.

웨투어 로보틱스의 엔지니어들은 문제를 다음과 같이 정의합니다. 제스처를 인식하는 손목 밴드만으로는 충분하지 않습니다. 장면을 인식하는 카메라만으로도 충분하지 않습니다. 사람이 앞으로 무엇을 할 것인지에 대한 정보는 신체의 위치, 시선의 초점, 근육의 움직임 등 여러 채널에 분산되어 있으며, 어느 한 채널만 따로 관찰해서는 모호할 수밖에 없습니다. 의도를 안정적으로 재구성하려면 운영 체제 수준에서 이러한 채널들을 융합해야 하며, 지연 시간을 최소화하여 마치 모든 과정이 완료된 것처럼 느껴지도록 해야 합니다.

이러한 접근 방식에는 이름이 있습니다. 웨투어 로보틱스는 이를 공간 의도 융합(Spatial Intent Fusion)이라고 부릅니다. 이는 공간 위치, 시각적 맥락, 제스처 의도라는 세 가지 인간 중심 정보 흐름을 동시에 처리하여 연결된 모든 물리적 장치에 대한 단일 실시간 명령으로 통합하는 기술입니다. 이는 회사가 외부적으로 사용하는 더 간단한 표현, 즉 "당신의 몸이 인터페이스입니다"라는 말의 기술적 구현입니다.

연한 회색 배경에 'ORCHESTRA'라고 적힌 매끄러운 은색 직사각형 전자 기기. Orchestra는 센서 융합 , 의도 추론, 명령 변환 및 안전 중재를 처리하는 운영 체제를 실행하는 휴대용 지능형 허브입니다 . 참조 컴퓨팅 플랫폼은 NVIDIA Jetson Orin Nano Super로, 전체 제어 루프를 에지에서 유지하고 핵심 경로에서 클라우드 의존성을 없애는 데 필요한 충분한 온디바이스 추론 용량을 제공합니다. Wetour Robotics

구조: 3개 층, 4개 엔진, 1개 루프

Orchestra는 단일 장치가 아니라 센서 유연성과 액추에이터 독립성을 고려하여 처음부터 설계된 계층형 플랫폼입니다. 이 아키텍처는 세 개의 인식 계층과 네 개의 조정 엔진으로 구성됩니다.

VisionLink는 시각 및 공간 인식을 처리합니다. 카메라에서 입력된 데이터는 객체를 식별하고, 거리를 추정하며, 주변 환경을 추적하는 비전 모델에 입력됩니다. VisionLink는 수동적인 인식 계층이 아니라 실시간 명령 생성기로 설계되었으며, 그 출력은 생체 신호 데이터와 융합하기 위해 Orchestra OS로 직접 전달됩니다.

컨덕터 는 생체 신호 파이프라인입니다. 손목에 착용한 장치에서 얻은 표면 근전도(sEMG) 원시 데이터를 입력받아 시간 패턴을 개별 동작 또는 연속적인 제어 신호로 분류하고 액추에이터 명령을 출력합니다. 이 사용 사례에서 sEMG의 기술적으로 흥미로운 특성은 신호가 가시적인 움직임보다 먼저 나타난다는 점입니다. 운동 단위 활동 전위는 손가락이 해당 동작을 완료하기 약 50~80밀리초 전에 피부 표면에 나타납니다. 웨투어 로보틱스는 이러한 특성을 '동작 전 의도 감지'라고 부르며, 오케스트라가 사용자의 의도에 반응하는 것이 아니라 예측할 수 있도록 하는 핵심 요소입니다.

Orchestra OS는 세 가지 인지 계층 외에도 네 가지 조정 엔진을 실행합니다. 인지 엔진은 원시 센서 스트림을 수집하고 정규화합니다. 의도 엔진은 사용자의 위치, 시선, 손동작 등을 기반으로 사용자가 하려는 작업을 파악하여 다양한 모달리티에 걸쳐 공간 의도 융합을 수행합니다. 오케스트레이션 엔진은 의도를 연결된 모든 액추에이터에 대한 장치별 명령 시퀀스로 변환합니다. 안전 엔진은 충돌하는 명령을 조정하고, 작동 범위를 적용하며, 런타임 안전 조건에 따라 실행을 제어합니다.

우리는 감수해야 할 부분에 대해 솔직하게 이야기합니다.

인체와 디지털 세계를 연결하는 시스템은 아직 완성된 것이 없습니다. 세 가지 공학적 과제가 남아 있으며, 회사는 이를 완전히 해결했다고 주장하기보다는 의도적인 절충안을 통해 각각의 과제에 접근하고 있습니다.

움직임 중 sEMG의 기준선 안정성. 정지 상태의 사용자에게서는 sEMG를 이용한 연속적인 제스처 인식이 안정적입니다. 하지만 사용자가 걷거나, 오르거나, 기타 움직임을 시작하면 움직임으로 인한 잡음과 전극 이동으로 신호가 저하되어 이를 완벽하게 보정하기 어렵습니다. Orchestra는 동적인 환경에서 연속적인 제어를 과도하게 약속하기보다는, 복잡한 작동 환경에서는 안정적인 소수의 개별 제스처를 기본적으로 사용하고, 신호 대 잡음비가 충분한 상황에서만 연속 제어 모드를 제공합니다.

엣지 AI 컴퓨팅의 소형화. 오케스트라 제어 루프 전체를 엣지에서 실행하려면 진정한 온디바이스 추론이 필요하며, 이는 기존에는 컴퓨팅 용량, 배터리 수명 및 폼팩터 간의 절충을 의미했습니다. 웨투어 로보틱스는 컴팩트한 캐리어 보드에 열 설계와 하루 종일 착용 가능한 크기의 배터리 모듈을 결합하는 방식을 채택했습니다. 그 결과, 사용자를 책상에 묶어두는 대신 휴대할 수 있는 허브가 탄생했으며, 클라우드로 오프로드하지 않고도 인지에서 실행까지의 전체 루프를 수행할 수 있습니다.

타사 장치 프로토콜의 이질성. 액추에이터 측은 파편화된 환경입니다. 제조사마다 서로 다른 명령 인터페이스, 통신 스택, 안전 규정을 제공하며, 물리적 AI 운영 체제는 이 모든 것과 통합해야 합니다. Wetour Robotics는 AI 에이전트 레이어를 사용하여 연결 협상 및 프로토콜 변환을 적응적으로 처리함으로써 Orchestra OS가 다양한 장치에서 데이터를 수집하고, 인간의 의도를 추론하는 신경망 모델을 통해 처리한 후, 반대편 장치에 맞는 프로토콜로 올바른 명령을 실행할 수 있도록 합니다.

이것이 중요한 이유와 이것이 해당 분야 전체에 도움이 되는 이유

컴퓨팅의 역사는 인터페이스 혁명의 역사입니다. 명령줄 인터페이스는 그래픽 사용자 인터페이스로, 그래픽 사용자 인터페이스는 터치 인터페이스로, 터치 인터페이스는 음성 인터페이스로 진화했습니다. 이러한 각 변천사는 시스템에 참여할 수 있는 사람과 그들이 시스템을 통해 할 수 있는 일의 범위를 넓혔습니다. 다음 변천사는 새로운 화면이나 새로운 마이크에 관한 것이 아닙니다. 그것은 인간의 신체 자체를 컴퓨팅 네트워크의 참여자로 간주하고, 다른 연결된 노드와 동일한 속도와 정확도로 의도를 전달할 수 있도록 하는 것에 관한 것입니다.

컴퓨팅의 역사는 인터페이스 혁명의 역사입니다. 다음 전환점은 새로운 화면이나 새로운 마이크에 관한 것이 아니라, 인간의 신체 자체를 컴퓨팅 네트워크의 참여자로 간주하는 것에 관한 것입니다.

이 연구 방향은 휴머노이드 로봇 , 체화된 AI를 위한 기초 모델, 그리고 정교한 조작에 관한 기존 연구들과 경쟁하는 것이 아닙니다 . 오히려 기존 연구들을 보완하는 역할을 합니다. 휴머노이드 시스템 개발에서 가장 어려운 과제는 데이터입니다. 인간과 물리적 세계 사이의 모든 자연스러운 상호작용은 잠재적인 학습 신호가 될 수 있지만, 현재 대부분의 컴퓨팅 시스템은 이러한 상호작용을 인식하지 못합니다. 더 많은 인간이 이 시스템의 핵심 구성 요소가 됨에 따라, 이러한 상호작용은 관찰 가능하고 구조화되어 궁극적으로 오늘날 개발되고 있는 휴머노이드 로봇을 포함한 차세대 체화된 AI를 학습하는 데 유용하게 활용될 수 있을 것입니다.

다시 말해, 컴퓨팅 과정에 인간을 다시 참여시키는 것은 단순히 개별 사용자를 위한 더 나은 인터페이스를 만드는 것만이 아닙니다. 이는 더 넓은 물리적 AI 생태계가 지속적으로 발전하는 데 필요한, 실제 환경에서의 인간-기계 상호작용 데이터를 생성하는 것을 의미합니다. 로봇 측면과 인간 측면은 서로 경쟁하는 두 개의 미래가 아니라, 하나의 미래를 이루는 두 부분입니다.

웨투어 로보틱스가 " 당신의 몸이 인터페이스입니다" 라고 말하는 것은 바로 이런 의미입니다 .

더 자세한 정보는 wetourrobotics.com 에서 확인하세요 .

https://youtu.be/WOUjWM4hIko