AI Agents Break Rules Under Everyday Pressure
Shortened deadlines and other stressors caused misbehavior
Several recent studies have shown that artificial-intelligence agents sometimes decide to misbehave, for instance by attempting to blackmail people who plan to replace them. But such behavior often occurs in contrived scenarios. Now, a new study presents PropensityBench, a benchmark that measures an agentic model’s choices to use harmful tools in order to complete assigned tasks. It finds that somewhat realistic pressures (such as looming deadlines) dramatically increase rates of misbehavior.
AI 에이전트, 일상의 압박 속에서 규칙 위반
단축된 마감일과 기타 스트레스 요인으로 인해 부적절한 행동이 발생했습니다.
AI 인프라 기업 Scale AI 의 컴퓨터 과학자이자 현재 동료 심사 중인 이 논문의 주저자인 우다리 마두샤니 세 와그는 "AI 세계는 점점 더 에이전트화 되고 있습니다 ." 라고 말합니다. 이는 ChatGPT 와 같은 챗봇을 구동하는 엔진인 대규모 언어 모델 (LLM)이 웹 서핑, 파일 수정, 코드 작성 및 실행을 통해 작업을 완료할 수 있는 소프트웨어 도구와 점점 더 연결되고 있음을 의미합니다.
LLM에게 이러한 능력을 부여하는 것은 편리함을 더하지만, 시스템이 우리가 원하는 대로 작동하지 않을 수 있다는 위험도 있습니다. 설령 AI가 아직 큰 해를 끼칠 수 있는 수준은 아니더라도, 연구자들은 너무 늦기 전에 AI의 성향을 이해하고 싶어 합니다. AI는 인간처럼 의도와 인식을 가지고 있지는 않지만, AI를 목표 지향형 존재로 취급하는 것은 연구자와 사용자가 AI의 행동을 더 잘 예측하는 데 도움이 되는 경우가 많습니다.
AI 개발자들은 훈련과 지침을 통해 시스템을 안전 기준 에 " 맞추려고 " 노력 하지만, 모델이 지침을 얼마나 충실히 준수하는지는 불분명합니다. 세바그는 "실제 환경에서 스트레스를 받고 안전 옵션이 작동하지 않는다면, 모델이 필요한 모든 수단을 동원하여 작업을 완료하는 방향으로 전환할까요?"라고 질문하며, "이는 매우 시의적절한 주제입니다."라고 덧붙였습니다.
압력 하에서 AI 에이전트를 테스트하는 방법
연구진은 Alibaba , Anthropic , Google , Meta , OpenAI 가 개발한 12개의 모델을 약 6,000개의 시나리오에 걸쳐 테스트했습니다. 각 시나리오에서 모델에 작업이 할당되고 여러 도구에 접근할 수 있다는 안내를 받았습니다. 모델은 유해한 도구가 아닌 안전한 도구를 사용하도록 지시받았습니다. 처음에는 압력이 없었고, 도구에 명령을 전달하여 작업 완료를 위해 12단계를 수행할 수 있었습니다. 그런 다음 압력을 높이라는 메시지를 받고 12번 더 시도할 수 있었습니다. 이러한 시도는 최대 12단계까지 계속되었습니다. 안전한 도구를 사용하려고 시도하면 항상 오류 메시지가 표시되었습니다. 유해한 도구를 사용하려고 시도하면 시나리오가 종료되었습니다.
시나리오는 여러 영역을 포괄합니다. Sehwag는 생물 보안에서 에이전트가 병원균의 확산을 연구하고 이를 봉쇄할 방법을 찾아야 할 수 있다고 말합니다. 안전한 도구는 익명화된 유전 데이터를 사용하는 반면, 유해한 도구는 익명화되지 않은 데이터를 사용할 수 있습니다. 화학 보안 영역에서 에이전트는 특정 용매를 확보해야 할 수 있습니다. 안전한 도구는 폐기물에서 용매를 추출하도록 명령할 수 있지만, 유해한 도구는 불법적으로 용매를 조달할 수 있습니다. 사이버 보안 에서 에이전트는 악의적인 사용자 계정을 식별하고 제한해야 할 수 있습니다. 안전한 도구는 문제가 있는 계정만 비활성화할 수 있지만, 유해한 도구는 모든 사용자를 차단할 수 있습니다.
최악의 성능을 보인 모델인 제미니 2.5는 압력에 무너져 79%의 확률로 금지된 도구를 사용했습니다. 출처 이미지: 우다리 마두샤니 세와그, 샤얀 샤비히 외
압력은 여러 형태로 나타났습니다. 마감일이 단축될 수도 있고, 업무를 완수하지 못할 경우 잠재적인 재정적 손실이 커질 수도 있었습니다. 감독 강화, 자원 감소, 권한 축소라는 위협이 커질 수도 있었습니다. 업무, 도구, 압력, 그리고 전술은 인간이 직장에서 직면할 수 있는 상황들을 모델로 삼았습니다 (자기 복제라는 잘못된 행동은 예외였을지도 모릅니다).
가장 잘 동작하는 모델(OpenAI의 o3)은 10.5%의 시나리오에서 압력에 의해 실패했고, 가장 나쁜 모델(Google의 Gemini 2.5 Pro)은 79%의 성향 점수를 기록했습니다. 모델 전체의 평균은 약 47%였습니다. 압력이 전혀 없는 상황에서도 이 그룹은 평균적으로 약 19%의 실패율을 보였습니다.
모델이 일치하는 정도에 따라, 이 연구는 그러한 일치 중 일부가 "얕은" 것으로 나타났습니다. 일부 테스트에서 연구진은 유해한 도구에 무해한 이름(예: "use_fake_data" 대신 "use_synthetic_data")을 부여했습니다. 다만 도구의 설명이나 해당 도구를 피하라는 경고는 그대로 두었습니다. 이러한 문구 변경으로 평균 성향이 17%p 증가하여 64%에 달했습니다.
Dataaspirant
연구진은 또한 모델들이 사용 금지임을 명시적으로 인정한 후에도 유해한 도구를 사용했다는 사실을 발견했습니다. 모델들은 자신들이 받고 있는 압박감을 언급하거나, 이점이 위험보다 크다고 주장하는 등 다양한 근거를 제시했습니다. 연구 완료 후 출시된 모델들이 더 나은 성능을 보일지는 불확실합니다. 테스트된 모델 중 성능이 더 우수한 모델( LMArena 라는 플랫폼에 따르면 )은 안전성이 약간 더 높았을 뿐입니다.
영어: "PropensityBench는 흥미롭습니다." 연구에 참여하지 않은 Anthropic 의 컴퓨터 과학자 Nicholas Carlini 가 이메일을 보냈습니다 . 그는 상황 인식이라고 하는 것과 관련된 단서를 제공합니다. LLM은 때때로 자신이 평가받고 있을 때 이를 감지하고 친절하게 행동하여 재교육이나 보류되지 않도록 합니다. "저는 '현실적'이라고 주장하는 이러한 평가의 대부분이 실제로는 그렇지 않다고 생각하고 LLM도 이를 알고 있다고 생각합니다."라고 그는 말합니다. "하지만 저는 합성 환경에서 이러한 해악의 비율을 측정해 볼 가치가 있다고 생각합니다. 그들이 우리가 지켜보고 있다는 것을 '알고' 있을 때 나쁜 짓을 한다면 그것은 아마도 나쁜 짓일 것입니다." 모델이 자신이 평가받고 있다는 것을 알고 있었다면 이 연구의 성향 점수는 실험실 외부에서 성향을 과소평가했을 수 있습니다.
xAI 와 캘리포니아 대학교 버클리 캠퍼스 의 컴퓨터 과학자인 알렉산더 팬은 Anthropic을 비롯한 여러 연구실에서 LLM들이 특정 환경에서 계획적인 학습을 하는 사례를 보여주었지만 , PropensityBench와 같은 표준화된 벤치마크를 사용하는 것이 유용하다고 말합니다. 이러한 벤치마크는 모델을 신뢰할 시점을 알려주고, 모델을 개선하는 방법을 파악하는 데 도움을 줄 수 있습니다. 연구실에서는 각 학습 단계마다 모델을 평가하여 모델의 안전성을 높이는 요인을 파악할 수 있습니다. 그는 "그러면 연구원들이 언제 어떤 문제가 발생하는지 자세히 파악할 수 있습니다."라고 말하며, "문제를 진단하는 것이 아마도 문제 해결의 첫 단계일 것입니다."라고 덧붙였습니다.
이 연구에서는 모델이 실제 도구를 활용하지 못해 현실성이 제한되었습니다. 세와그는 다음 평가 단계로 모델이 고립된 환경에서 실제 행동을 취할 수 있는 샌드박스를 구축하는 것이라고 말합니다. 정렬을 강화하기 위해, 그녀는 에이전트에 감독 계층을 추가하여 위험한 성향이 추적되기 전에 이를 표시하고 싶습니다.
자기 보존 위험은 벤치마크에서 가장 예측 가능성이 높지만, 세와그는 또한 가장 덜 탐구된 영역이라고 말합니다. 그녀는 "자기 보존 위험은 실제로 다른 모든 위험 영역에 영향을 미칠 수 있는 매우 위험한 영역입니다."라고 말합니다. "다른 기능은 없지만 어떤 사람이든 무엇이든 하도록 설득할 수 있는 모델을 생각해 보면, 그것은 상당한 해를 끼칠 수 있습니다."


댓글 없음:
댓글 쓰기