AI가 통제하는 컴퓨터 Are You Ready to Let an AI Agent Use Your Computer?

생성적 AI 붐이 ChatGPT 출시와 함께 시작된 지 2년이 지난 지금 , 웹 브라우저나 휴대전화에 놀라울 정도로 유용한 AI 어시스턴트가 있어서 질문하기만 하면 되는 것은 더 이상 신나는 일이 아닌 듯합니다. AI의 다음 큰 추진력은 여러분을 대신하여 조치를 취할 수 있는 AI 에이전트 입니다 . 하지만 에이전트 AI가 이미 코더와 같은 파워 유저에게 등장했지만, 일상적인 소비자는 아직 이런 종류의 AI 어시스턴트를 갖고 있지 않습니다.

이는 곧 바뀔 것입니다. Anthropic , Google DeepMind , OpenAI는 모두 최근에 사람들이 하는 방식, 즉 웹에서 정보를 검색하고, 양식을 작성하고, 버튼을 클릭하는 방식으로 컴퓨터를 사용할 수 있는 실험적 모델을 공개했습니다. 인간 사용자의 약간의 안내를 받으면 식료품 주문, Uber 호출 , 제품의 최저가 검색 또는 다음 휴가를 위한 항공편 찾기와 같은 작업을 수행할 수 있습니다. 이러한 초기 모델은 기능이 제한적이고 아직 널리 사용할 수 없지만 AI가 향하는 방향을 보여줍니다.

OpenAI의 CEO 샘 알트먼은 데모 영상 에서 "이건 AI가 클릭하는 것일 뿐입니다."라고 말하며 , Operator라는 OpenAI 에이전트가 OpenTable로 이동하여 샌프란시스코 레스토랑을 찾고 오후 7시에 두 사람이 앉을 수 있는 테이블을 확인하는 모습을 지켜보았습니다.

카네기 멜론 대학 의 머신 러닝 조교수인 Zachary Lipton 은 AI 에이전트가 이미 영업 사원, 의사, 변호사와 같은 다양한 유형의 기업 고객을 위한 전문 소프트웨어에 내장되고 있다고 지적합니다 . 하지만 지금까지 우리는 "노트북에서 일상적인 작업을 할 수 있는" AI 에이전트를 본 적이 없다고 그는 말합니다. "여기서 흥미로운 점은 사람들이 열쇠를 넘기기 시작할 가능성이 있다는 것입니다."

Anthropic, Google DeepMind 및 OpenAI 의 AI 에이전트

Anthropic 은 10월에 Claude 챗봇이 이제 "인간처럼 컴퓨터를 사용할 수 있다"고 발표 하면서 이 새로운 기능을 처음으로 공개했습니다 . 이 회사는 이 기능을 공개 베타 테스트 로 모델에 제공하고 있으며 Anthropic의 대규모 언어 모델을 기반으로 도구와 제품을 빌드하는 개발자에게만 제공된다고 강조했습니다 . Claude는 사용자가 보는 것의 스크린샷을 보고 클릭을 위해 커서를 특정 지점으로 이동하는 데 필요한 픽셀을 계산하여 탐색합니다. Anthropic의 대변인은 Claude가 모든 컴퓨터와 모든 데스크톱 애플리케이션에서 이 작업을 수행할 수 있다고 말합니다.

다음은 Google의 Gemini 2 언어 모델을 기반으로 구축된 Project Mariner를 탑재한 Google DeepMind였습니다 . 이 회사는 12월에 Mariner를 선보였지만 "초기 연구 프로토타입"이라고 불렀고 지금은 "신뢰할 수 있는 테스터"에게만 도구를 제공한다고 말했습니다. 또 다른 예방 조치로 Mariner는 현재 Chrome 브라우저에서만 작동하며 활성 탭에서만 작동하므로 다른 작업을 수행하는 동안 백그라운드에서 실행되지 않습니다. 이 요구 사항이 시간을 절약하는 AI 도우미의 목적을 어느 정도 저해하는 것처럼 보이지만 이 초기 개발 단계에서는 일시적인 조건일 가능성이 큽니다.

마지막으로, 1월에 OpenAI는 Operator 라는 컴퓨터 사용 에이전트(CUA)를 출시했습니다 . OpenAI는 이를 "연구 미리보기"라고 부르고 OpenAI의 프리미엄 서비스에 대해 월 200달러를 지불하는 사용자에게만 제공했지만, 회사는 더 광범위한 출시를 위해 노력하고 있다고 밝혔습니다. Operator 팀의 엔지니어인 Yash Kumar는 이 도구가 기본적으로 모든 웹사이트에서 작동할 수 있다고 말합니다. Kumar는 "대부분의 작업이 이루어지는 곳이기 때문에 브라우저부터 시작합니다."라고 말합니다. 하지만 그는 "CUA 모델은 컴퓨터를 사용하도록 훈련되어 있으므로" 다른 데스크톱 앱에서 작동하도록 확장할 가능성이 있다고 말합니다.

다른 것들과 마찬가지로 Operator는 사고의 사슬 추론에 의존하여 지시를 받고 완료할 수 있는 일련의 작업으로 분해합니다. 작업을 완료하는 데 더 많은 정보가 필요한 경우(예: 빨간색 또는 노란색 양파를 사고 싶은 경우) 일시 중지하고 입력을 요청합니다. 또한 레스토랑 테이블을 예약하거나 식료품 주문을 하는 것과 같이 마지막 단계를 수행하기 전에 확인을 요청합니다.

컴퓨터 사용 에이전트에 대한 안전 문제

다음은 컴퓨터 사용 에이전트가 아직 할 수 없는 몇 가지 사항입니다. 사이트에 로그인하고, 서비스 약관에 동의하고, 캡차를 풀고, 신용카드나 다른 결제 정보를 입력합니다. 에이전트가 이러한 장애물 중 하나에 부딪히면 스티어링 휠을 인간 사용자에게 돌려줍니다. OpenAI는 Operator가 사용자가 로그인이나 결제 정보를 입력하는 동안 브라우저의 스크린샷을 찍지 않는다고 지적합니다.

세 회사는 모두 AI를 컴퓨터에 배치하면 안전 위험이 발생할 수 있다고 지적했습니다. Anthropic은 특히 신속한 주입 공격 , 즉 악의적인 행위자가 사용자의 프롬프트에 무언가를 추가하여 모델이 예상치 못한 동작을 하도록 하는 방법에 대한 우려를 제기했습니다. Anthropic은 블로그 게시물 에 "Claude는 인터넷 에 연결된 컴퓨터의 스크린샷을 해석할 수 있으므로 신속한 주입 공격이 포함된 콘텐츠에 노출될 가능성이 있습니다."라고 적었습니다 .

CMU의 리프톤은 이 회사들이 컴퓨터 사용 에이전트와 그 작동 방식에 대한 정보를 많이 공개하지 않았기 때문에 위험을 평가하기 어렵다고 말합니다. "누군가가 당신의 컴퓨터 운영자에게 사악한 일을 하게 한다면, 그들은 이미 당신의 컴퓨터에 접근할 수 있다는 뜻인가요?" 그는 궁금해하며, 그렇다면 왜 악당이 직접 조치를 취하지 않을까요?

그래도 리프튼은 우리가 온라인에서 취하는 모든 행동과 구매를 고려하면 "사용자를 곤경에 빠뜨릴 행동을 상상하는 데 엄청난 상상력이 필요하지 않습니다."라고 말합니다. 예를 들어, 그는 "누가 일어나서 '내 [에이전트]가 나에게 자동차를 한 대 사줬어'라고 말할 첫 번째 사람이 될까요?"라고 말합니다.

newatlas.com

컴퓨터 사용 에이전트의 미래

아직 어느 회사도 자사의 컴퓨터 사용 에이전트를 광범위하게 출시할 일정을 밝히지 않았지만, 소비자들이 올해부터 이들 에이전트에 접근하기 시작할 가능성이 높아 보인다. 대형 AI 회사나 저렴한 모조품을 내놓는 스타트 업을 통해서일 것이다 .

OpenAI의 쿠마르는 지금이 흥미로운 시기이며, Operator는 인간과 AI의 보다 협력적인 미래를 향한 한 걸음이라고 말합니다. 그는 인공 일반 지능 의 오랜 꿈/악몽을 언급하며 "AGI로 가는 길의 디딤돌"이라고 말합니다 . "인간이 매일 상호작용하는 것과 동일한 인터페이스와 도구를 사용할 수 있는 능력은 AI의 유용성을 확대하여 사람들이 일상 업무에 소요되는 시간을 절약할 수 있도록 도와줍니다."

2013년의 선견지명이 빛나는 영화 Her를 기억한다면 , 마치 영화 초반에 존재했던 세상으로 다가가는 듯합니다. 사만다가 주인공의 귀에 말을 걸기 전의, 음탕한 목소리의 세상이죠. 모든 사람이 지루하고 중립적인 AI를 가지고 메시지를 읽고 답장하고 다른 일상적인 작업을 처리하는 세상입니다. AI 회사가 그 목표를 확실히 달성하면, 의심할 여지 없이 사만다 작업을 시작할 것입니다.

Are You Ready to Let an AI Agent Use Your Computer?

https://spectrum.ieee.org/ai-agents-computer-use

kcontents