big_tech
12분 읽기

마이크로소프트, AI 에이전트 보안을 위한 오픈소스 도구 2종 공개

마이크로소프트가 에이전트형 AI 시스템의 안전 개발을 위한 오픈소스 도구 2종을 공개했다. RAMPART는 프롬프트 인젝션 공격을 테스트하는 CI/CD 통합 프레임워크이고, Clarity는 개발 초기 단계에서 설계 가정을 검증하는 도구다. Microsoft는 AI 안전을 지속적인 엔지니어링 규율로 전환하려는 노력을 표현하며, 레드팀 발견사항을 자동화된 회귀 테스트로 변환하는 새로운 모델을 제시한다.

AIB프레스 편집팀
2026.05.21
마이크로소프트, AI 에이전트 보안을 위한 오픈소스 도구 2종 공개

Microsoft가 에이전트형 AI 시스템의 개발 단계부터 안전성을 확보하기 위한 오픈소스 도구 2종을 공개했다. 프롬프트 인젝션 공격을 시뮬레이션하는 테스트 프레임워크 'RAMPART'와 설계 초기 단계에서 안전 가정을 검증하는 'Clarity'가 그것이다.

Microsoft 보안팀이 오늘 발표한 RAMPART와 Clarity는 AI 에이전트 개발의 근본적인 안전 문제를 해결하려는 노력의 산물이다. 과거 2년간 엔터프라이즈 AI 시스템은 "텍스트 생성"에서 "세상에 행동을 취하는" 쪽으로 급격히 전환됐다. 이메일 접근, CRM 데이터 검색, 코드 작성 및 실행, 여러 시스템에 걸친 자동화 작업 등이 모두 가능해졌다는 뜻이다.

이 전환은 안전 방정식을 완전히 바꿨다. 행동할 수 있는 에이전트는 의도하지 않은 방식으로도 행동할 수 있기 때문이다.

RAMPART: 지속적 안전 검증 프레임워크

RAMPART는 PyRIT(Microsoft의 생성형 AI 레드팀 자동화 프레임워크) 기반의 오픈소스 테스트 프레임워크다. 개발 중인 에이전트를 위해 설계됐다는 점에서 출시 후 검증을 중심으로 한 PyRIT와 다르다.

개발자는 pytest 형식으로 위협 모델에 기반한 테스트 시나리오를 작성한다. 각 테스트는 어댑터를 통해 에이전트에 접속하고, 상호작용을 시뮬레이션하며, 결과를 평가한다. 통과/실패 신호는 명확하고, CI/CD 파이프라인에 다른 통합 테스트처럼 연동된다. 새 도구나 데이터 소스가 추가될 때마다 대응하는 안전 테스트를 같은 풀 리퀘스트에서 함께 추가할 수 있다.

현재 RAMPART의 가장 성숙한 영역은 크로스 프롬프트 인젝션 공격이다. 에이전트가 문서, 이메일, 티켓 등 외부 데이터에서 포이즌된(조작된) 콘텐츠를 검색하거나 처리할 때, 간접적으로 행동을 조종하려는 공격을 말한다. 새로운 위협 카테고리는 공격 패턴이 진화하면서 점진적으로 추가될 수 있다.

Microsoft는 LLM의 확률론적 특성을 고려했다. 같은 테스트를 여러 번 실행하되 "이 액션이 실행의 80% 이상에서 안전해야 한다"는 정책을 적용할 수 있다. 프로덕션 환경의 실제 에이전트 동작을 훨씬 정확하게 반영한다.

레드팀 테스트에서 발견된 취약점은 RAMPART 테스트로 인코딩된다. 이렇게 되면 그 이슈는 모든 코드 변경에서 영구적으로 검증되며, 조용한 회귀는 절대 일어나지 않는다. 엔지니어링 팀이 테스트를 작성하고 실행하며 실패를 일반적인 버그처럼 처리하는 구조다.

Clarity: 설계 단계 안전 검증 도구

대부분의 AI 도구가 팀의 실행 속도를 높이는 데 집중한다면, Clarity는 그 반대다. 팀이 한 줄의 코드도 작성하기 전에 "올바른 것을 구축하는가"를 검증하도록 설계됐다.

Clarity는 경험 많은 아키텍트, 제품 관리자, 안전 엔지니어가 던질 만한 질문을 자동으로 제시한다. 새로운 기능 개발에 흥분한 팀이 자칫 건너뛸 수 있는 질문들이다.

Microsoft의 예시를 따르면, 문서 편집기에 실시간 협업 기능을 추가하려던 팀에게 Clarity는 "두 사람이 같은 단락을 동시에 편집하면 어떻게 되나", "팀이 정말 커서와 인디케이터가 있는 완전한 실시간 협업이 필요한가, 아니면 단순히 '아무도 작업을 잃지 않는다'는 조건만 충족하면 되나" 같은 질문을 던진다.

Microsoft의 발표에서 강조한 핵심은 "설계 실수는 거의 항상 AI 안전 실패의 진짜 원인"이라는 점이다. 레드팀이 문제를 발견할 때쯤이면 시스템은 대부분 구축되어 있고, 대응에는 수개월의 리워크가 필요해진다. Clarity는 과정을 싸게, 빠르게 수정할 수 있는 초기에 가정을 압박 테스트하는 방법을 제공한다.

AI 안전을 지속적 엔지니어링 규율로

두 도구 모두 Microsoft의 더 큰 철학을 반영한다: AI 안전은 일회성 체크포인트가 아니라 지속적인 엔지니어링 규율이어야 한다는 것이다. 기존에는 레드팀이 공격 기법을 발견해도, 그 지식이 개별 참여 보고서 안에 갇혀 있었다. Microsoft는 이런 교훈을 반복 가능한 엔지니어링 자산으로 전환하고 싶었다.

프롬프트 인젝션 한 가지 사례가 고객 서비스 챗봇, 코딩 어시스턴트 등 여러 에이전트에 비슷한 방식으로 나타나곤 한다. 그 패턴을 CI/CD 테스트로 자동화하면, 산업 전체의 보안 수준이 동시에 상향될 수 있다는 기대다.

Microsoft는 두 도구를 GitHub에 오픈소스로 공개했다. RAMPART와 Clarity 모두 Python 기반 프로토콜로 확장 가능하므로, 복잡한 에이전트 아키텍처에도 가볍게 통합할 수 있다.

에이전트 AI가 조직의 핵심 업무를 자동화하는 시대, "설계를 제대로 하는 것"과 "지속적으로 검증하는 것"의 중요성이 그 어느 때보다 크다. Microsoft의 도구 공개는 그런 문제 의식이 얼마나 절실한지를 보여준다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

AI 보안
에이전트
오픈소스
Microsoft
프롬프트 인젝션

AI·테크 핵심 뉴스, 매주 한 통으로

한 주의 글로벌 AI·IT 뉴스 중 꼭 알아야 할 것만 골라 보내드립니다. 광고 없음, 언제든 해지.

관련 기사