Construction, IT, Science, Economy etc

인공지능 시스템이 조용히 실패하는 이유 Why AI Systems Fail Quietly

Why AI Systems Fail Quietly

They can go wrong without crashing—and standard monitoring won’t catch it



In late-stage testing of a distributed AI platform, engineers sometimes encounter a perplexing situation: every monitoring dashboard reads “healthy,” yet users report that the system’s decisions are slowly becoming wrong.

Engineers are trained to recognize failure in familiar ways: a service crashes, a sensor stops responding, a constraint violation triggers a shutdown. Something breaks, and the system tells you. But a growing class of software failures looks very different. The system keeps running, logs appear normal, and monitoring dashboards stay green. Yet the system’s behavior quietly drifts away from what it was designed to do.

https://spectrum.ieee.org/ai-reliability

인공지능 시스템이 조용히 실패하는 이유는 무엇일까요?

시스템이 다운되지 않더라도 오류가 발생할 수 있으며, 일반적인 모니터링 시스템으로는 이를 감지할 수 없습니다.

분산형 AI 플랫폼의 후기 테스트 단계에서 엔지니어들은 때때로 난감한 상황에 직면합니다. 모든 모니터링 대시보드에는 "정상"이라고 표시되지만, 사용자들은 시스템의 결정이 서서히 잘못되고 있다고 보고하는 것입니다.

엔지니어들은 익숙한 방식으로 오류를 인식하도록 훈련받습니다 . 서비스가 다운되거나, 센서가 응답하지 않거나, 제약 조건 위반으로 시스템이 종료되는 경우처럼 말이죠. 무언가 고장 나면 시스템이 알려줍니다. 하지만 최근에는 이와는 전혀 다른 형태의 소프트웨어 오류가 점점 늘어나고 있습니다. 시스템은 계속 작동하고, 로그는 정상적으로 보이며, 모니터링 대시보드도 정상으로 유지됩니다. 하지만 시스템의 동작은 설계된 목적에서 조용히 벗어나고 있는 것입니다.

자율성이 소프트웨어 시스템 전반에 확산됨에 따라 이러한 패턴이 더욱 흔해지고 있습니다. 이제 정확성은 시스템 전체의 조정, 타이밍 및 피드백에 달려 있기 때문에, 조용한 오류는 자율 시스템 의 핵심적인 엔지니어링 과제 중 하나로 부상하고 있습니다 .



Towards AI

시스템이 고장 나지 않고 실패할 때

금융 분석가를 위해 규제 업데이트를 요약하도록 설계된 가상의 기업용 AI 비서를 생각해 보겠습니다. 이 시스템은 내부 저장소에서 문서를 검색하고, 언어 모델을 사용하여 이를 종합한 다음, 내부 채널을 통해 요약본을 배포합니다.

기술적으로는 모든 것이 정상적으로 작동합니다. 시스템은 유효한 문서를 검색하고, 일관성 있는 요약을 생성하며, 문제없이 전달합니다.

하지만 시간이 지나면서 뭔가 문제가 생깁니다. 예를 들어, 최신 문서 저장소가 검색 파이프라인에 추가되지 않을 수 있습니다. 그러면 도우미는 일관성 있고 내부적으로도 문제가 없는 요약을 계속 생성하지만, 점점 더 오래된 정보에 기반하게 됩니다. 오류가 발생하거나 경고가 뜨는 등의 문제는 없고, 모든 구성 요소는 설계대로 작동합니다. 문제는 전체적인 결과가 잘못되었다는 것입니다.

겉으로 보기에는 시스템이 정상적으로 작동하는 것처럼 보입니다. 하지만 그 시스템에 의존하는 조직의 입장에서 보면, 시스템은 조용히 고장 나고 있는 것입니다.

전통적인 관측 가능성의 한계

조용한 오류를 감지하기 어려운 이유 중 하나는 기존 시스템이 잘못된 신호를 측정하기 때문입니다. 운영 대시보드는 가동 시간, 지연 시간 및 오류율과 같은 최신 관찰 가능성 의 핵심 요소를 추적합니다 . 이러한 지표는 요청이 독립적으로 처리되고 정확성을 즉시 확인할 수 있는 트랜잭션 애플리케이션에 적합합니다.

자율 시스템은 각기 다른 방식으로 동작합니다. 많은 AI 기반 시스템은 지속적인 추론 루프를 통해 작동하며, 각 결정은 후속 조치에 영향을 미칩니다. 정확성은 단일 계산에서 나오는 것이 아니라 구성 요소 간의 상호 작용과 시간 경과에 따른 일련의 과정을 통해 도출됩니다. 검색 시스템은 문맥상 부적절하지만 기술적으로는 유효한 정보를 반환할 수 있습니다. 계획 에이전트는 국소적으로는 합리적이지만 전역적으로는 안전하지 않은 단계를 생성할 수 있습니다. 분산형 의사 결정 시스템은 올바른 조치를 잘못된 순서로 실행할 수 있습니다.

이러한 조건들 중 어느 것도 반드시 오류를 발생시키는 것은 아닙니다. 일반적인 관측 가능성의 관점에서 보면 시스템은 정상적으로 작동하는 것처럼 보입니다. 하지만 시스템의 본래 목적이라는 관점에서 보면 이미 실패하고 있을 수도 있습니다.


Towards AI


자율성이 실패를 바꾸는 이유

근본적인 문제는 아키텍처에 있습니다. 기존 소프트웨어 시스템은 개별적인 작업들을 중심으로 구축되었습니다. 요청이 들어오면 시스템이 이를 처리하고 결과를 반환합니다. 제어는 일시적이며 사용자, 스케줄러 또는 외부 트리거에 의해 시작됩니다.

자율 시스템은 이러한 구조를 변화시킵니다. 개별 요청에 응답하는 대신, 지속적으로 관찰하고 추론하며 행동합니다. AI 에이전트는 상호 작용 전반에 걸쳐 맥락을 유지합니다. 인프라 시스템은 실시간으로 리소스를 조정합니다. 자동화된 워크플로는 사람의 개입 없이 추가적인 작업을 실행합니다.

이러한 시스템에서 정확성은 개별 구성 요소의 작동 여부보다는 시간 경과에 따른 조정에 더 크게 좌우됩니다.

분산 시스템 엔지니어들은 오랫동안 조정 문제에 고심해 왔습니다. 하지만 이번 조정은 완전히 새로운 차원입니다. 단순히 서비스 간 데이터 일관성을 유지하는 것과 같은 문제가 아닙니다. 모델, 추론 엔진, 계획 알고리즘 , 도구 등 다양한 주체들이 부분적인 맥락 정보만을 가지고 내리는 일련의 결정들이 종합적으로 올바른 결과를 도출하도록 보장하는 것이 핵심입니다.

최신 AI 시스템은 수천 개의 신호를 평가하고, 후보 행동을 생성하고, 분산 인프라 전반에 걸쳐 이를 실행할 수 있습니다. 각 행동은 다음 결정이 내려지는 환경을 변화시킵니다. 이러한 조건에서 작은 실수는 누적될 수 있습니다. 표면적으로는 합리적인 조치라 할지라도 시스템을 더욱 잘못된 방향으로 이끌 수 있습니다.

엔지니어들은 자율 시스템의 동작이 시간이 지나도 의도된 목적과 일치하는지 여부, 즉 행동 신뢰성이라고 부를 수 있는 문제에 직면하기 시작했습니다.

누락된 요소: 행동 통제

조직이 조용한 실패에 직면했을 때, 가장 먼저 떠오르는 생각은 모니터링을 개선하는 것입니다. 즉, 더 심층적인 로그, 더 나은 추적, 더 많은 분석 기능을 도입하는 것이죠. 관찰 가능성은 필수적이지만, 이는 단지 동작이 이미 잘못되었다는 사실만 보여줄 뿐, 문제를 해결해주지는 못합니다.

조용한 오류를 해결하려면 다른 접근 방식이 필요합니다. 즉, 시스템이 작동하는 동안 그 동작을 제어할 수 있는 능력이 필요합니다. 다시 말해, 자율 시스템은 단순한 모니터링을 넘어 제어 아키텍처를 점점 더 필요로 합니다.

산업 분야의 엔지니어들은 오랫동안 감시 제어 시스템 에 의존해 왔습니다 . 이러한 시스템은 시스템 상태를 지속적으로 평가하고 동작이 안전 범위를 벗어날 경우 개입하는 소프트웨어 계층입니다. 항공기 비행 제어 시스템, 전력망 운영, 대규모 제조 공장 모두 이러한 감시 루프에 의존합니다. 과거에는 대부분의 애플리케이션에 감시 시스템이 필요하지 않았기 때문에 소프트웨어 시스템에서 감시 시스템을 사용하지 않았습니다. 그러나 자율 시스템에서는 감시 시스템의 필요성이 점점 커지고 있습니다.

AI 시스템의 행동 모니터링은 단순히 구성 요소의 기능 여부뿐만 아니라, 동작이 의도된 목적에 부합하는지 여부에 초점을 맞춥니다. 엔지니어는 지연 시간이나 오류율과 같은 지표에만 의존하는 대신, 출력의 변화 , 유사한 입력에 대한 일관성 없는 처리, 또는 여러 단계를 거치는 작업 수행 방식의 변화와 같은 행동 변화의 징후를 찾습니다. 예를 들어, AI 비서가 오래된 정보를 인용하기 시작하거나 자동화 시스템이 예상보다 자주 수정 조치를 취하는 경우, 시스템이 더 이상 올바른 정보를 사용하여 의사 결정을 내리지 못하고 있다는 신호일 수 있습니다. 실제로 이는 시간 경과에 따른 결과와 행동 패턴을 추적하는 것을 의미합니다.

감독 제어는 이러한 신호를 기반으로 시스템 실행 중에 개입합니다. 감독 계층은 진행 중인 작업이 허용 가능한 범위 내에 있는지 확인하고, 필요한 경우 작업을 지연시키거나 차단하거나, 시스템을 더 안전한 작동 모드로 제한하거나, 결정을 검토하도록 전달할 수 있습니다. 더욱 발전된 시스템에서는 데이터 접근을 제한하거나, 출력에 대한 제약을 강화하거나, 영향력이 큰 작업에 대해 추가 확인을 요구하는 등 실시간으로 동작을 조정할 수 있습니다.

이러한 접근 방식들을 종합하면 신뢰성을 능동적인 프로세스로 전환할 수 있습니다. 시스템은 단순히 작동하는 데 그치지 않고 지속적으로 점검되고 관리됩니다. 눈에 띄지 않는 오류가 여전히 발생할 수 있지만, 시스템 작동 중에 더 일찍 감지하고 수정할 수 있습니다.

공학적 사고의 전환

조용한 고장을 방지하려면 엔지니어들이 신뢰성에 대해 생각하는 방식을 바꿔야 합니다. 구성 요소가 올바르게 작동하는지 확인하는 것에서 시스템 동작이 시간이 지나도 일관성을 유지하는지 확인하는 것으로 초점을 전환해야 합니다. 구성 요소 설계에서 올바른 동작이 자동으로 나타날 것이라고 가정하는 대신, 엔지니어들은 동작을 적극적인 관리가 필요한 대상으로 점점 더 인식해야 합니다.

인공지능 시스템이 더욱 자율화됨에 따라 이러한 변화는 클라우드 인프라, 로봇 공학 , 대규모 의사결정 시스템을 포함한 컴퓨팅의 여러 영역으로 확산될 가능성이 높습니다. 이제 가장 어려운 엔지니어링 과제는 작동하는 시스템을 구축하는 것이 아니라, 시간이 지나도 시스템이 올바른 동작을 지속적으로 수행하도록 보장하는 것일 수 있습니다.

댓글 없음: