Construction, IT, Science, Economy etc

이제 인간을 뛰어 넘은 AI The Turing Test has a problem - and OpenAI's GPT-4.5 just exposed it


* 튜링 테스트 turing test
튜링 검사는 원래 1949년 앨런 튜링이 모방 게임이라고 불렀으며 기계가 인간과 동등한 지능적 행동을 보일 수 있는 능력이 있는지를 검사하는 것이다. 튜링은 인간 평가자가 인간과 같은 반응을 일으키도록 설계된 기계 사이의 자연 언어 대화를 판단할 것을 제안했다.위키백과

Investopedia

GPT-4.5가 인간을 이겼다
진짜 튜링 테스트 통과

  UC샌디에이고 연구팀의 측정 결과 AI 모델 GPT-4.5가 인간을 제치고 역사상 처음으로 3자 튜링 테스트를 통과했다.

지난 달 31일(현지시간) 공개된 논문에서 UC샌디에이고 연구팀은 GPT-4.5, 라마(LLaMa)-3.1-405B 등 최신 대형언어모델(LLM)을 인간 참가자들과 함께 3자 튜링 테스트 형식으로 평가했다. 실험은 각각 미국 대학생과 프로리픽(Prolific) 소속 일반인을 대상으로 총 1023개의 게임에서 진행됐다.

The Turing Test has a problem - and OpenAI's GPT-4.5 just exposed it
https://www.zdnet.com/article/the-turing-test-has-a-problem-and-openais-gpt-4-5-just-exposed-it/
edited by kcontents


튜링 테스트는 원래 ‘사람 vs AI’를 구분하는 단순한 2자 구도였지만, 이번에는 ‘사람 vs AI vs 심판’의 구성을 사용했다. 심판은 두 사람 중 누가 진짜 인간인지를 5분 대화로 판별해야 했다.

결과는 충격적이었다. GPT-4.5는 참가자의 73%에게 '진짜 인간'으로 오인받았다. 특히 Z세대 인터넷 문화를 반영한 ‘페르소나 프롬프트’를 적용한 경우, AI가 인간보다 압도적으로 더 많이 선택됐다. 이는 실제 인간 참가자의 존재감조차 흐려지게 만든 셈이다. 라마-3.1도 56%의 확률로 인간으로 판정받았지만, 통계적으로 의미 있는 차이는 나타나지 않았다.

반면, 단순한 프롬프트만 적용된 GPT-4o는 21%에 그쳤고, 고전 규칙 기반 챗봇인 엘리자(ELIZA)는 23%에 불과했다. 인간과 구별이 명확했다는 뜻이다.

실험에 적용한 튜링 테스트 사례 [사진: arxiv.org]

연구진은 이번 실험은 튜링 테스트 원형 조건에서 AI가 인간을 기만한 사례로 평가하며 기계가 인간의 사회적 역할을 대체할 수 있는 수준에 가까워졌다는 신호라는 분석을 내놓았다.

이는 인간보다 ‘더 인간스럽다’는 AI의 등장은 감정노동이나 상담처럼 인간 고유의 사회적 역할까지 대체할 수 있음을 시사하며, 인간 존엄성과 존재의 고유성에 대한 재정의 요구로 이어진다. 이번 실험은 ‘AI의 자기표시 의무’, ‘기만 방지 설계’ 등 실질적 윤리 가이드라인 수립의 필요성을 실증적으로 뒷받침함으로써, 규범적 논의에 구체적 근거를 제공했다는 평가를 받고 있다.
AI리포터 ai@d-today.co.kr

The Turing Test has a problem - and OpenAI's GPT-4.5 just exposed it
https://www.zdnet.com/article/the-turing-test-has-a-problem-and-openais-gpt-4-5-just-exposed-it/


https://youtu.be/EXzBS6_DOkg

KCONTENTS

댓글 없음: