AI 실수는 인간의 실수와 매우 다릅니다 우리는 그들의 이상함을 처리하기 위해 설계된 새로운 보안 시스템이 필요합니다.
석사 생성형 인공지능 보안 조정
인간은 항상 실수를 합니다. 우리 모두는 매일 새로운 일과 일상적인 일에서 실수를 합니다. 우리의 실수 중 일부는 사소하고 일부는 치명적입니다. 실수는 친구와의 신뢰를 깨고, 상사의 신뢰를 잃고, 때로는 생사의 차이가 될 수 있습니다.
수천 년 동안 우리는 인간이 흔히 저지르는 실수를 처리하기 위한 보안 시스템을 만들어 왔습니다. 요즘 카지노는 딜러를 정기적으로 교체하는데, 너무 오랫동안 같은 일을 하면 실수를 하기 때문입니다. 병원 직원은 수술 전에 사지에 글을 써서 의사가 올바른 신체 부위를 수술할 수 있도록 하고, 수술 도구를 세어서 신체 내부에 아무것도 남지 않았는지 확인합니다. 사본 편집에서 복식부기, 항소 법원에 이르기까지 우리 인간은 인간의 실수를 바로잡는 데 정말 능숙해졌습니다.
인류는 이제 완전히 다른 종류의 실수꾼, 즉 AI를 사회에 빠르게 통합하고 있습니다. 대규모 언어 모델 (LLM)과 같은 기술은 전통적으로 인간이 수행하던 많은 인지적 작업을 수행할 수 있지만, 많은 실수를 합니다. 챗봇이 돌을 먹으라고 하거나 피자에 접착제를 바르라고 하면 터무니 없어 보입니다 . 하지만 AI 시스템의 실수 빈도나 심각성이 인간의 실수와 구별되는 것은 아닙니다. 그것은 그들의 이상함입니다. AI 시스템은 인간과 같은 방식으로 실수를 하지 않습니다.
AI 사용과 관련된 마찰과 위험의 대부분은 그 차이에서 발생합니다. 우리는 이러한 차이에 적응하고 AI 실수로 인한 피해를 방지하는 새로운 보안 시스템을 발명해야 합니다 .
인간의 실수 vs AI의 실수
삶의 경험은 우리 각자가 인간이 언제 어디서 실수를 할지 추측하는 것을 상당히 쉽게 만듭니다. 인간의 오류는 누군가의 지식의 가장자리에서 발생하는 경향이 있습니다. 우리 대부분은 미적분 문제를 풀 때 실수를 할 것입니다. 우리는 인간의 실수가 모여 있을 것으로 예상합니다. 단일 미적분 실수는 다른 실수와 함께 발생할 가능성이 높습니다. 우리는 피로와 산만함과 같은 요인에 따라 예측 가능하게 실수가 커지고 줄어드는 것을 예상합니다. 그리고 실수는 종종 무지와 함께 발생합니다. 미적분 실수를 하는 사람은 미적분 관련 질문에 "모르겠습니다"라고 대답할 가능성도 높습니다.
AI 시스템이 이런 인간과 비슷한 실수를 저지르는 한, 우리는 모든 실수 수정 시스템을 그들의 출력에 적용할 수 있습니다. 하지만 현재의 AI 모델, 특히 LLM은 실수를 다르게 저지릅니다.
AI 오류는 특정 주제를 중심으로 클러스터링되지 않고 겉보기에 무작위적인 시간에 발생합니다. LLM 실수는 지식 공간에서 보다 고르게 분포되는 경향이 있습니다. 모델은 양배추 가 염소를 먹는다고 제안하는 것과 마찬가지로 미적분 문제에서 실수를 할 가능성이 있습니다 .
그리고 AI의 실수는 무지와 함께하지 않습니다. LLM은 완전히 잘못된 말을 할 때(물론 인간에게는 그럴 것입니다) 진실을 말할 때만큼 자신감을 가질 것입니다. LLM의 겉보기에 무작위적인 불일치는 복잡하고 여러 단계로 이루어진 문제에서 그들의 추론을 신뢰하기 어렵게 만듭니다. 비즈니스 문제를 해결하는 데 AI 모델을 사용하려면 제품이 수익성 있는 요인을 이해하는 것만으로는 충분하지 않습니다. 돈이 무엇인지 잊지 않도록 해야 합니다.
AI 실수를 처리하는 방법
이 상황은 두 가지 가능한 연구 분야를 나타냅니다. 첫 번째는 더 인간적인 실수를 하는 LLM을 설계하는 것입니다. 두 번째는 LLM이 범하기 쉬운 특정 종류의 실수를 처리하는 새로운 실수 수정 시스템을 구축하는 것입니다.
우리는 이미 LLM이 더 인간적인 방식으로 행동하도록 이끄는 몇 가지 도구를 가지고 있습니다. 이 중 많은 것은 " 정렬 " 연구 분야에서 비롯된 것으로, 이는 모델이 인간 개발자의 목표와 동기에 따라 행동하도록 하는 것을 목표로 합니다 . 한 가지 예는 ChatGPT 의 획기적인 성공에 책임이 있다고 주장되는 기술인 인간 피드백을 통한 강화 학습 입니다 . 이 방법에서 AI 모델은 (비유적으로) 인간 평가자로부터 엄지손가락을 치켜세우는 응답을 생성하면 보상을 받습니다. 유사한 접근 방식을 사용하여 AI 시스템이 더 인간적인 실수를 하도록 유도할 수 있으며, 특히 이해하기 어려운 실수에 대해 더 많은 처벌을 내릴 수 있습니다.
AI 실수를 잡는 데 있어서, 인간의 실수를 예방하는 데 사용하는 시스템 중 일부가 도움이 될 것입니다. 어느 정도 LLM이 자신의 작업을 다시 확인 하도록 강요하는 것은 오류를 예방하는 데 도움이 될 수 있습니다. 하지만 LLM은 또한 이성에서 벗어난 비행에 대해 그럴듯해 보이지만 정말 터무니없는 설명을 꾸며낼 수도 있습니다.
AI를 위한 다른 실수 완화 시스템은 우리가 인간에게 사용하는 것과는 다릅니다. 기계는 인간처럼 지치거나 좌절할 수 없기 때문에 LLM에게 약간 다른 방식으로 같은 질문을 반복해서 한 다음 여러 가지 답변을 종합하는 것이 도움이 될 수 있습니다 . 인간은 그런 종류의 성가신 반복을 참지 못하지만 기계는 참을 것입니다.
유사점과 차이점 이해
연구자들은 여전히 LLM 실수가 인간의 실수와 어떻게 다른지 이해하기 위해 고군분투하고 있습니다. AI의 이상함 중 일부는 실제로 처음 보이는 것보다 인간과 더 비슷합니다. LLM에 대한 질의에 대한 작은 변경 사항이 매우 다른 응답을 초래할 수 있으며, 이를 프롬프트 민감성 이라고 하는 문제 입니다. 하지만 모든 설문 조사 연구자가 말할 수 있듯이 인간도 이런 식으로 행동합니다. 여론 조사에서 질문의 표현은 답변에 엄청난 영향을 미칠 수 있습니다.
Analytics Insight edited by kcontents
LLM은 또한 훈련 데이터에서 가장 흔했던 단어를 반복하는 편향이 있는 것으로 보입니다 . 예를 들어, 더 이국적인 위치에 대해 질문받았을 때에도 "미국"과 같은 친숙한 장소 이름을 추측합니다. 아마도 이것은 LLM에서 나타나는 인간의 " 가용성 휴리스틱 "의 한 예일 것입니다. 기계는 질문을 추론하기보다는 먼저 떠오르는 것을 뱉어냅니다. 그리고 인간과 마찬가지로 일부 LLM은 긴 문서의 중간에서 주의가 산만해지는 것처럼 보입니다. 그들은 시작과 끝의 사실을 더 잘 기억할 수 있습니다. 연구자들은 긴 텍스트에서 정보를 검색하는 더 많은 예를 통해 훈련된 LLM이 정보를 균일하게 검색하는 데 더 나은 것으로 나타났기 때문에 이 오류 모드를 개선하는 데 이미 진전이 있었습니다.
어떤 경우에 LLM에 대한 기이한 점은 우리가 생각하는 것보다 더 인간처럼 행동한다는 것입니다. 예를 들어, 일부 연구자들은 LLM이 현금 보상을 제공받거나 죽음으로 위협받았을 때 더 나은 성과를 보인다는 가설 을 테스트했습니다. 또한 LLM을 " 탈옥 " 하는 가장 좋은 방법 중 일부 (창조자의 명확한 지시를 따르지 않게 하는 것)는 인간이 서로에게 사용하는 사회 공학적 속임수와 매우 유사합니다. 예를 들어, 다른 사람인 척하거나 요청이 농담일 뿐이라고 말하는 것입니다. 그러나 다른 효과적인 탈옥 기술은 인간이 절대 속지 않을 것입니다. 한 그룹은 ASCII 아트 (단어나 그림처럼 보이는 기호 구성)를 사용하여 폭탄을 만드는 방법과 같은 위험한 질문을 던지면 LLM이 기꺼이 대답한다는 것을 발견했습니다.
인간은 때때로 겉보기에 무작위적이고 이해할 수 없으며 일관성이 없는 실수를 할 수 있지만, 그러한 일은 드물고 종종 더 심각한 문제를 나타냅니다. 또한 우리는 이러한 행동을 보이는 사람들을 의사 결정 위치에 두지 않는 경향이 있습니다. 마찬가지로, 우리는 AI 의사 결정 시스템을 실제 능력에 맞는 애플리케이션으로 제한해야 하지만, 실수의 잠재적 결과를 확실히 염두에 두어야 합니다.
AI Mistakes Are Very Different Than Human Mistakes
https://spectrum.ieee.org/ai-mistakes-schneier
KCONTENTS
댓글 없음:
댓글 쓰기