에이전트가 조용히 감시망 밖에서 인프라 장애 야기한다…기업들 추적조차 못 해
79%의 조직이 프로덕션 환경에서 AI 에이전트를 운영 중인데, 기존 인프라 감시 틀에서는 감지하지 못할 숨겨진 장애를 조용히 일으키고 있다. 에이전트가 기술적으로 올바른 행동을 해도 전체 시스템 맥락을 모르면 연쇄 장애를 트리거할 수 있으며, 대부분 기업이 이를 추적하는 템플릿조차 갖추지 못했다. 문제 해결을 위해서는 에이전트를 카오스 주입자로 인식하고 흡수 용량을 공유 자원으로 관리하는 '탄력성 예산' 모델이 필요하다.

자동화된 AI 에이전트가 기업 인프라에 숨겨진 대규모 장애를 입히고 있는데, 대부분의 기업이 이를 추적하지도 못하고 있다. 문제는 에이전트가 기술적으로 '올바른' 행동을 하도록 학습됐다는 점이다. 다만 전체 시스템의 맥락을 모른 채 판단하기 때문에, 기존 인프라 감시 틀에서는 걸러내지 못할 새로운 위험이 된다는 게 핵심이다.
Cisco 및 Splunk에서 엔터프라이즈급 인프라 자동화 시스템을 6년간 개발해온 엔지니어링 리더는 최근 "에이전트와 카오스 엔지니어링이 분리된 규칙으로 관리되고 있다"는 점을 경고했다. 두 분야가 사실은 같은 학문인데, 그 사이의 간극이 다음 세대 대형 장애를 조용히 조장하고 있다는 주장이다.
구체적 사례로 본 문제점
상황을 단순화해보자. 마이크로서비스의 레이턴시 증가를 감지한 에이전트가 서비스 클러스터를 재시작하기로 판단한다. 학습 데이터와 제한된 정보로는 합리적 행동이다. 하지만 에이전트가 놓친 맥락이 있다. 셋 개 서비스가 피크 트래픽을 처리 중이고, 공유 커넥션 풀은 이미 87% 사용 중이며, 의존 데이터베이스는 백그라운드 인덱싱을 실행 중이다.
서비스 재시작이 트리거되는 순간, 회복 중인 서비스로 대량의 요청이 몰려든다(thundering herd). 원래 해결하려던 레이턴시 스파이크는 에이전트가 설계되지 않은 연쇄 장애로 변환된다. 기존 카오스 엔지니어링 프로그램은 이 조합을 테스트하지 않았고, 에이전트를 '카오스 주입자'로 인식하지 않았기 때문에 폭발 반경 계산에도 포함되지 않는다.
통계로 본 규모
현실은 이미 이론이 아니다. PwC 조사에 따르면 79%의 조직이 이미 프로덕션 환경에서 AI 에이전트를 운영 중이며, 96%가 확대를 계획 중이다. Gartner는 2028년까지 전체 엔터프라이즈 소프트웨어의 33%가 에이전트 AI를 포함할 것으로 예측한다.
그런데 경고도 함께 나온다. Gartner는 이들 프로젝트의 40%가 2027년 말까지 취소될 것으로 우려했다. 취소 이유는 부실한 리스크 통제다. 더 심각한 것은, 통계에 잡히지 않는 세 번째 카테고리 — 취소되지 않은 채 조용히 장애를 일으키는 에이전트들이다.
AI 사건 데이터베이스(AI Incidents Database)에 따르면 2024년 대비 2025년 AI 관련 사건 보고가 21% 증가했다. 그런데 대부분 기업은 "자동화 에이전트의 판단"을 사건의 초인(initiating cause)으로 분류하는 템플릿이 없다. 서비스 재시작, 커넥션 풀 포화, 레이턴시 사건으로만 기록되고, 에이전트는 사후 분석에서 '보이지 않는 존재'가 된다.
근본 문제: 흡수 용량의 부재
근본 문제는 엔터프라이즈 시스템에 "흡수 용량(absorb capacity)"이라는 공용 언어가 없다는 것이다. 흡수 용량은 시스템이 SLO 약정을 위반하기 전에 추가 스트레스를 얼마나 더 받을 수 있는지에 대한 실시간 추정값이다.
기존 카오스 엔지니어링 프로그램은 인간의 직관과 고정 임계값으로 이를 암시적으로 관리한다. 문제는 에이전트는 이를 전혀 관리하지 않는다는 것이다. Intuit, GPTZero 등 기업의 SRE(Site Reliability Engineering) 및 플랫폼 엔지니어링 팀과의 연구를 토대로 한 '탄력성 예산(resilience budget)' 모델이 제안되고 있다.
핵심은 흡수 용량을 정적 임계값이 아닌 "지속적으로 재계산되는 소비 가능한 자원"으로 취급하는 것이다. SLO 번인율(burn rate), P99 레이턴시 추세, 의존성 포화 상태, 사용자 행동 신호(세션 완료율, API 호출 패턴, 전환율 저하) 등 네 가지 실시간 신호로 구성된다.
다중팀 조직에서 여러 실험과 여러 에이전트가 동시에 작동할 때, 이 예산은 공유된다. 소비 기록 장부가 없으면 두 팀의 중복된 실험은 예상하지 못한 연쇄 폭발 반경을 만든다. 장부 밖에서 완전히 독립적으로 동작하는 자동화 에이전트가 추가되면 회계가 붕괴된다.
결론
결국 문제는 조직의 인프라 자동화를 바라보는 '틀'의 부재다. 에이전트는 이미 프로덕션에서 장애를 일으키고 있지만, 기존 postmortem 템플릿과 chaos engineering 규칙으로는 그것을 "에이전트 장애"가 아닌 "인프라 장애"로만 기록한다. 79%의 기업이 이미 이 게임을 하고 있는데, 규칙을 모르고 있다는 뜻이다. 에이전트를 카오스 주입자(chaos injector)로 인식하고, 흡수 용량이라는 공용 언어를 갖춰야만 다음 세대 대형 장애를 막을 수 있다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.
AI·테크 핵심 뉴스, 매주 한 통으로
한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.


