Why Aren’t We Measuring How AI Affects Humans?
Expert calls for metrics on AI models’ societal impact, not just performance

As AI systems become more capable, a lot of resources and effort are being put toward measuring their abilities. Researchers look at technical evaluation metrics, subject AIs to reasoning tests, track their throughput, and much more. But there’s one key metric that often gets overlooked, and it’s arguably the most important of all: What is AI doing to humans?
https://spectrum.ieee.org/measuring-ai-societal-impact-khan
전문가들은 AI 모델의 성능뿐 아니라
사회적 영향에 대한 지표도 필요하다고 강조합니다.
인공지능 시스템의 능력이 향상됨에 따라, 그 능력을 측정하기 위한 많은 자원과 노력이 투입되고 있습니다. 연구자들은 기술적 평가 지표를 살펴보고, 인공지능에 추론 테스트를 실시하고, 처리량을 추적하는 등 다양한 방법을 사용합니다. 하지만 종종 간과되는 핵심 지표가 하나 있는데, 어쩌면 가장 중요한 것일지도 모릅니다. 바로 인공지능이 인간에게 어떤 영향을 미치는가 하는 점입니다.
임란 칸은 비영리 단체인 휴먼 테크놀로지 센터(Center for Humane Technology) 에서 인공지능(AI)의 심리사회적 평가를 이끌고 있습니다 . 최근 센터의 서브스택(Substack)에 게재된 에세이에서 칸은 우리가 인지, 관계, 행동을 재편할 수 있는 AI 도구를 사용하고 있지만, 이러한 도구들이 우리에게 미치는 파급 효과를 체계적으로 측정하려는 노력은 부족하다고 지적합니다.
AI의 심리사회적 영향에 대한 면밀한 검토 요구는 소셜 미디어의 폐해를 둘러싼 논쟁과 유사하지만, 칸은 AI가 훨씬 더 광범위하고 내밀한 영향을 미칠 수 있다고 믿습니다. AI의 성능과 발전에만 초점을 맞추는 것은 이 기술이 궁극적으로 인간의 번영에 도움이 되는지, 아니면 우리의 가장 기본적인 능력을 훼손하는지에 대한 질문을 간과하는 것입니다.
AI 모델 성능에 대한 빠진 질문
에세이에서 당신은 인공지능 시스템이 무엇을 할 수 있는지 측정하는 데는 매우 능숙해졌지만, 인간에게 어떤 영향을 미치는지 측정하는 데는 서툴러졌다고 주장합니다. 이러한 점을 간과하게 된 계기는 무엇인가요?
칸: 인공지능 개발 분야에 조금이라도 종사하다 보면, SWE-bench 나 Humanity's Last Exam, LLM Arena 같은 테스트에서 다양한 모델들이 얼마나 잘 수행하는지를 보여주는 그래프들을 통해 모델의 놀라운 발전을 목격하게 됩니다. 인공지능 기업들은 최고의 모델을 만들고 인정받기 위해 치열한 경쟁을 벌입니다. 이렇게 인상적인 데이터들을 접하게 되지만, 동시에 현실 세계에서는 십대 청소년들의 자살이나 인공지능 정신병과 같은 무섭고 위험한 일들도 일어나고 있다는 것을 알게 됩니다.
한편으로는, 우리는 대부분의 사람들의 일상생활과는 관련성이 제한적인, 때로는 상당히 난해한 부분에서 인공지능이 어떻게 작동하는지 측정하는 데 엄청난 에너지를 쏟고 있습니다. 그런데 다른 한편으로는, 인공지능이 인간의 행복에 영향을 미치고 있음에도 불구하고, 우리는 그 영향을 훨씬 덜 측정하고 있습니다. 우리가 가장 중요하게 여겨야 할 것들을 가장 적게 측정하고 있다는 것은 이상한 역설처럼 보였습니다.
귀하의 에세이에서는 소셜 미디어의 경우, 피해에 대한 증거가 충분히 확보될 때쯤에는 이미 피해가 만연해 있었다고 지적하셨습니다. 인공지능(AI) 역시 이미 대규모로 측정 가능한 피해를 초래하고 있다고 보십니까, 아니면 아직 초기 경고 단계에 있다고 보십니까? AI로 인한 피해가 확산되는 속도에는 어떤 차이점이 있을까요?
칸: 저는 몇몇 주목할 만한 사례들이 빙산의 일각에 불과하다고 생각합니다. 십대 자살, AI 정신병, 엄청난 시간이나 돈을 들여 아첨 하도록 설계된 AI 챗봇 과 상호작용하는 사람들 등 말이죠. 이러한 피해는 이미 현실로 나타나고 있다고 봅니다.
하지만 우리가 할 수 있는 일은 많습니다. 대중의 압력 때문에 OpenAI는 아첨에 대한 대중의 우려를 해소하기 위해 ChatGPT 모델 중 하나를 수정해야 했습니다 . 이는 연구소들이 어떻게 비판에 귀 기울이고 대응하는지를 보여주는 대표적인 사례입니다. 따라서 기술의 방향을 바꿔 유용성은 유지하면서도 해로움은 줄일 수 있는 잠재력이 있습니다 . 만약 우리가 그러한 해악들을 측정할 수 있다면, 그것은 우리가 그러한 변화를 이끌어낼 수 있는 중요한 근거가 될 것입니다.
더 어려운 문제는 사회적 차원에서 발생하는 피해에 대한 질문입니다. 사람들이 수개월, 수년 동안 매일 AI를 사용하게 되면 연인 관계, 가족 관계, 청소년들의 정체성에 어떤 변화가 일어날까요? 이러한 현상들을 조속히 측정하지 않으면 변화를 가져오기에는 너무 늦어버릴까 봐 걱정됩니다.
[ Center for Humane Technology ] | Substack
AI 기업들은 사용자들이 무엇보다 편의성과 생산성을 중요하게 여긴다고 주장할 가능성이 높습니다. 이러한 주장에 대해 어떻게 생각하시나요?
인간과 소비자의 복잡한 본질은 바로 여기에 있습니다. 우리는 모순되는 것들을 원합니다. 사용자가 바쁘거나 스트레스가 심한 순간에 어떤 선택을 할지뿐만 아니라, 기술과의 건강한 관계를 어떻게 유지하고 싶어하는지까지 이해해야 합니다. 순간적인 불편함은 누구나 원하지만, 불편함이 없는 삶이 가장 만족스럽거나 배움과 주체성을 가장 많이 얻을 수 있는 삶이라고 생각하는 사람은 거의 없을 것입니다. 따라서 중요한 것은 순간적인 선택이 아니라, 장기적으로 우리가 진정으로 원하는 것이 무엇인지 묻는 것입니다.
교육, 치료 , 동반자 관계, 직장 동료 관계 등 심리사회적 측정이 특히 중요하다고 생각하는 특정 영역이 있습니까 ?
칸: 제가 가장 주목하는 영역은 동반자 관계와 정서적 지원과 관련된 영역 입니다 . 이러한 용도로 가장 많이 사용될 가능성이 높은 소비자층은 잠재적인 영향에 가장 취약할 수도 있습니다. 사람들이 외로움을 느끼고 챗봇이 제공하는 것과 같은 정서적 지원을 갈망할 때, 그들에게 진정으로 필요한 것은 다른 사람, 즉 진심으로 그들을 아껴주는 사람입니다. 인공지능은 감정이나 공감 능력이 없기 때문에 당신을 진심으로 아껴줄 수 없습니다. 인공지능은 사람들이 인간관계를 맺고 유지하려는 어려운 노력을 방해할 수도 있습니다.
아동 및 청소년기의 사용 또한 중요한 문제인데, 이 시기는 인간의 삶에서 신경가소성이 발달하고 형성이 활발한 시기이기 때문입니다. 인지 과제나 정서적 몰입을 위한 마찰력을 제거했을 때 발달 중인 뇌에 장기적으로 어떤 영향을 미치는지 아직 알려지지 않았습니다.
제 주변에 교사나 학부모인 친구들은 교육에 대해 온갖 질문을 쏟아냅니다. 인공지능은 우리가 새로운 것을 배우고 접하고 호기심을 갖는 능력에 긍정적인 면과 부정적인 면 모두를 가져올 가능성이 큽니다.
마지막으로 위기 대응에 대해 이야기해 보겠습니다. 특히 자살 충동과 관련하여 AI가 적절하게 대응하는지에 대한 뉴스 기사가 많이 나왔습니다.
인공지능이 사회에 미치는 영향을 평가하는 방법
귀하의 에세이에서는 AI 벤치마크가 대부분 단기적이고 작업 기반적이지만, 인간에게 미치는 영향은 대부분 수개월 또는 수년에 걸쳐 나타난다고 지적하셨습니다 . 이러한 장기적인 영향을 평가하기 위한 방법을 어떻게 설계할 수 있을까요?
칸: 이것이 바로 평가 문제의 핵심입니다. AI가 코딩 작업을 얼마나 잘 수행하는지, 시스템을 해킹하는 데 얼마나 능숙한지, 복잡한 과학적 질문에 답하는 데 얼마나 능숙한지를 평가하는 것은 모두 AI에게 작업을 주고 수행할 수 있는지 여부를 확인하는 데 초점을 맞춥니다. 하지만 심리사회적 영향을 평가할 때는 개인의 정신, 관계, 공동체 또는 사회에 미치는 영향을 측정해야 합니다. 이를 위해서는 장기적인 연구가 필요합니다.
제약 산업을 예로 들 수 있습니다 . 미국 식품의약국(FDA)에서 신약을 승인할 때 여러 단계의 임상 시험을 거치지만, 약이 출시된 후에도 FDA는 제약 회사들이 5년 또는 10년 동안 발생할 수 있는 문제점을 살펴보는 사후 모니터링을 하도록 의무화하고 있습니다.
마찬가지로, 채팅 기록을 분석하여 사람들이 인공지능과 맺는 관계가 1~2년 동안 어떻게 변화하는지와 같은 새로운 현상에도 주목해야 합니다. 현재 기업들은 이러한 데이터를 보유하고 있지만, 외부 연구자들은 접근할 수 없습니다. 사용자 개인정보를 보호하면서도 더 많은 데이터에 접근할 수 있도록 하는 것이 우리가 반드시 해야 할 중요한 일 중 하나입니다.
기업들이 그 데이터를 공유할 가능성이 있을까요? 기업들이 하류 피해를 연구할 유인이 거의 없다고 말씀하셨는데, 어떤 요인이 이러한 유인 구조를 바꿀 수 있을까요?
또 다른 중요한 요소는 책임 문제 입니다 . 우리는 자살과 같은 극단적인 피해 사례를 목격해 왔으며, AI 기업들은 소송에 휘말리기도 했습니다. 기업들은 그러한 위협이 없는 상황을 원하며, 제품을 더욱 안전하게 만듦으로써 그 목표를 달성할 수 있습니다.
이상적으로는 책임을 명확히 규정하는 규제가 있어야 합니다. 결함이 있는 것으로 알려진 제품으로 인해 누군가가 피해를 입었다면, 해당 기업은 책임을 져야 하며 단순히 표현의 자유라고 주장할 수 없습니다. 이는 단순한 표현의 자유가 아니라 제품과 관련된 문제이기 때문입니다. 하지만 규제에만 의존해서는 안 됩니다. 미래의 정치 환경이 어떻게 변할지 아무도 예측할 수 없기 때문입니다.
5년 후, 당신이 주장하는 운동의 성공은 어떤 모습일까요? 어떤 구체적인 제도적 변화가 이 분야가 성숙했음을 보여줄까요?
칸: 현재 인공지능 사용으로 인한 피해는 대부분 챗봇 기반이지만, 이미 일부 사용자들이 챗봇 대신 상담원을 더 많이 사용하는 추세 입니다. 머지않아 우리는 이러한 상담원들과 실시간으로 항상 연결된 음성 대화를 나누게 될 것입니다. 이미 인공지능의 비디오 아바타를 만들 수 있는 서비스도 있습니다. 앞으로 우리는 텍스트 기반 챗봇과만 소통하는 것이 아니라, 점점 더 인간처럼 들리는 존재와 대화하고 그들의 목소리를 듣게 될 것이라고 생각합니다.
만약 우리가 이러한 기술들이 인간에게 미치는 영향을 이해하려는 노력이라도 시작하지 않는다면, 미래에 일어날 일들을 제대로 평가할 수 없을 정도로 너무 뒤처지게 될까 봐 걱정됩니다. 성공하려면 인공지능 연구소, 정부, 규제 기관, 대학, 스타트업 등 인간과 인공지능의 좋은 관계란 무엇인지에 관심을 가진 전문가들을 한데 모아야 합니다. 그리고 그들이 인공지능과 더욱 인간적인 관계를 맺을 수 있도록 확신을 주는 기술을 개발해야 합니다.
저는 우리가 진전을 이루고 있다고 생각합니다. 하지만 기술 발전 속도가 우리가 이루는 속도보다 더 빠른 것은 아닐까요? 지금으로서는 그 답이 '그렇다'인 것 같아 걱정입니다.
https://spectrum.ieee.org/measuring-ai-societal-impact-khan



댓글 없음:
댓글 쓰기