누구든 사칭 가능한 '실시간 오디오 딥페이크' Real-time Audio Deepfakes Have Arrived

Real-time Audio Deepfakes Have Arrived

A cybersecurity firm has created convincing voices on the fly

Early AI deepfakes, while impressive from a technical perspective, were both difficult to create and still not entirely convincing.

The technology has advanced quickly since 2020 or so, however, and has recently cleared a key hurdle: It’s now possible to create convincing real-time audio deepfakes using a combination of publicly available tools and affordable hardware. This is according to a report published by NCC Group, a cybersecurity firm, in September. It outlines a “deepfake vishing” (voice phishing) technique that uses AI to re-create a target’s voice in real time.

https://spectrum.ieee.org/real-time-audio-deepfake-vishing?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2025-10-22&utm_content=hero3

실시간 오디오 딥페이크가 등장했습니다

사이버 보안 회사가 즉석에서 설득력 있는 목소리를 만들어냈습니다

누구든 사칭할 수 있습니다

초기 AI 딥페이크는 기술적 관점에서 인상적이기는 했지만, 만들기가 어려웠고 여전히 완전히 설득력이 있지는 않았습니다.

하지만 이 기술은 2020년경부터 빠르게 발전하여 최근 주요 난관 하나를 극복했습니다. 공개적으로 이용 가능한 도구와 저렴한 하드웨어를 결합하여 이제 믿을 만한 실시간 오디오 딥페이크를 제작할 수 있게 된 것입니다. 이는 사이버 보안 회사 인 NCC 그룹이 9월에 발표한 보고서 에 따른 것입니다 . 이 보고서는 AI를 사용하여 대상의 음성을 실시간으로 재현하는 "딥페이크 비싱"( 음성 피싱 ) 기법을 설명합니다.

NCC 그룹의 보안 컨설턴트인 파블로 알로베라는 실시간 딥페이크 도구가 훈련되면 버튼 하나만 누르면 작동한다고 말합니다. "시작 버튼이 있는 프런트엔드, 즉 웹 페이지를 만들었습니다. 시작 버튼을 클릭하기만 하면 작동이 시작됩니다."라고 알로베라는 말합니다.

실시간 음성 딥페이크는 누구든 사칭할 수 있습니다

NCC 그룹은 실시간 음성 딥페이크 도구를 공개하지 않았지만, 연구 논문에는 결과물인 오디오 샘플이 포함되어 있습니다 . 이는 실시간 딥페이크가 설득력이 있을 뿐만 아니라 눈에 띄는 지연 시간 없이 작동할 수 있음을 보여줍니다.

데모에 사용된 입력 오디오 품질은 다소 낮지만, 출력은 여전히 설득력 있게 들립니다. 즉, 이 도구는 노트북 과 스마트폰 에 포함된 다양한 마이크 와 함께 사용할 수 있습니다 .

물론 오디오 딥페이크는 새로운 기술이 아닙니다. ElevenLabs 와 같은 여러 회사에서 몇 분 분량의 오디오만으로 오디오 딥페이크를 제작할 수 있는 도구를 제공하고 있습니다.

그러나 과거 AI 음성 딥페이크 사례들은 실시간으로 녹화되지 않았기 때문에 딥페이크의 설득력이 떨어질 수 있습니다. 공격자는 딥페이크 대화를 미리 녹화할 수 있지만, 대화 내용이 예상과 다를 경우 피해자는 쉽게 알아챌 수 있습니다. 반대로, 공격자가 즉석에서 딥페이크를 생성하려고 시도할 수도 있지만, 생성하는 데 최소 몇 초(그리고 종종 훨씬 더 오랜 시간)가 소요되어 대화가 지연되는 현상이 발생할 수 있습니다. NCC 그룹의 실시간 딥페이크는 이러한 문제에 영향을 받지 않습니다.

The New York Times

알로베라는 NCC 그룹이 고객의 동의를 받아 발신자 ID 스푸핑 과 같은 다른 기법과 함께 음성 변조기를 사용하여 개인을 사칭했다고 밝혔습니다. "거의 모든 전화에서 효과가 있었습니다. 대상은 우리가 사칭하는 사람으로 착각했습니다."라고 알로베라는 말했습니다.

NCC 그룹의 시연은 타사 서비스에 의존하지 않고 오픈소스 도구와 쉽게 구할 수 있는 하드웨어를 사용한다는 점에서 주목할 만합니다. 최상의 성능은 고성능 GPU를 사용할 때 얻어지지만, 오디오 딥페이크는 엔비디아의 RTX A1000이 탑재된 노트북에서도 테스트되었습니다 . (A1000은 엔비디아의 현재 라인업 중 성능이 가장 낮은 GPU 중 하나입니다 .) 알로베라는 이 노트북이 단 0.5초의 지연 시간으로 음성 딥페이크를 생성할 수 있었다고 밝혔습니다.

실시간 비디오 딥페이크도 멀지 않았습니다.

NCC 그룹이 실시간 음성 딥페이크 도구 개발에 성공한 것은 이 기술이 주류로 자리매김할 조짐을 시사합니다. 설령 출처가 오랫동안 알고 지낸 사람과의 전화 통화라 하더라도, 들리는 소리를 항상 믿을 수는 없는 것 같습니다.

하지만 눈에 보이는 것은 어떤가요?

TikTok, YouTube , Instagram 및 기타 비디오 플랫폼을 휩쓸고 있는 바이러스성 딥페이크 비디오 의 물결 덕분에 비디오 딥페이크 도 인기를 얻고 있습니다.

이는 알리바바의 WAN 2.2 애니메이트 와 구글의 제미니 플래시 2.5 이미지 (흔히 나노 바나나라고 함)라는 두 가지 최신 AI 모델 의 출시를 통해 가능해졌습니다 . 이전 모델들은 유명인의 얼굴을 복제하는 데 성공했지만, 최신 모델들은 누구든 딥페이크를 통해 거의 모든 환경에 배치할 수 있습니다.

AI 사이버 보안 컨설턴트 서킷(Circuit)의 설립자 트레버 와이즈먼은 이미 기업과 개인이 딥페이크 영상에 속아 넘어간 사례를 목격했다고 말합니다. 그는 한 기업이 채용 과정에서 사기를 당해 "실제로 미국 주소로 노트북을 배송했는데, 그 주소가 사기의 온상이 되었다"고 말했습니다.

최신 딥페이크 영상이 인상적이기는 하지만 여전히 한계가 있습니다.

NCC 그룹의 오디오 딥페이크와는 달리, 최신 비디오 딥페이크는 여전히 실시간으로 고품질 결과를 낼 수 없습니다. 몇 가지 단서도 남아 있습니다. 와이즈먼은 최신 비디오 딥페이크조차도 사람의 표정과 목소리 톤, 태도를 일치시키는 데 어려움을 겪는다고 말합니다. "흥분한 표정을 짓고 있지만 얼굴에 아무런 감정이 없다면 가짜입니다."라고 그는 말합니다.

그럼에도 불구하고, 이는 예외가 규칙을 증명하는 사례일 수 있습니다. 와이즈먼은 이 기술이 이미 대부분의 사람들을 대부분의 시간 동안 속일 만큼 충분히 뛰어나다고 지적합니다. 그는 기업과 개인이 음성이나 화상 대화에 의존하지 않는 새로운 인증 전략이 필요할 것이라고 제안합니다.

"알다시피, 저는 야구 팬이에요." 그가 말했다. "그들은 항상 신호를 보내죠 . 진부하게 들릴지 모르지만, 요즘 같은 시대에는 이게 진짜인지 아닌지 판단할 수 있는 뭔가를 생각해 내야 하잖아요."

https://youtu.be/a3rbTRMQDO0

Engi's Conpaper

누구든 사칭 가능한 '실시간 오디오 딥페이크' Real-time Audio Deepfakes Have Arrived

댓글 없음:

댓글 쓰기