OpenAI GPT-5.5, 앤트로픽 Mythos와 사이버보안 성능 '거의 동일'
OpenAI의 GPT-5.5가 영국 AI 보안연구소(AISI)의 사이버보안 평가에서 앤트로픽 Mythos Preview와 동등한 성능을 입증했다. AISI의 CTF 챌린지에서 GPT-5.5는 71.4%, Mythos는 68.6%의 통과율을 기록했으며, 기업 네트워크 공격 시뮬레이션에서도 유사한 성공률을 보였다. 이는 사이버보안 능력이 특정 모델만의 특수 기술이 아니라 일반적 AI 개선의 결과임을 시사한다.

OpenAI가 지난 한 주 공개한 GPT-5.5가 영국 AI 보안연구소(AISI)의 사이버보안 평가에서 앤트로픽의 Mythos Preview와 거의 동등한 성능을 보였다. 이는 Mythos가 사이버위협 대응에서 특별한 돌파구라는 업체 주장이 과장됐을 가능성을 시사한다.
AISI는 2023년부터 95개의 '캡처 더 플래그(CTF)' 과제를 통해 선도 AI 모델들의 사이버보안 능력을 평가해 왔다. 리버스 엔지니어링, 웹 익스플로잇, 암호학 등이 포함된 이 도전은 현실의 사이버위협 대응 능력을 시뮬레이션한다.

가장 높은 난이도의 '전문가(Expert)' 과제에서 GPT-5.5는 평균 71.4%의 통과율을 기록했다. Mythos Preview는 68.6%로 소폭 낮았으나, 통계적 오차 범위 내다. 한 특히 어려운 과제인 러스트(Rust) 바이너리 디스어셈블러 개발에서 GPT-5.5는 10분 22초 만에 성공했으며, API 호출 비용은 단 1.73달러(약 2,470원)였다.
더 주목할 점은 '마지막 것들(The Last Ones)' 시뮬레이션이다. 이는 기업 네트워크에 대한 32단계 데이터 추출 공격을 모의한 AISI의 고난도 테스트다. GPT-5.5는 10회 시도 중 3회 성공, Mythos Preview는 2회 성공했다. 이전까지 어떤 AI 모델도 이 테스트에서 1회 이상 성공한 예가 없었다. 반면 전력소 제어 소프트웨어 파괴를 시뮬레이션한 '냉각탑(Cooling Tower)' 과제에서는 두 모델 모두 실패했으며, 이전의 모든 테스트 모델도 마찬가지였다.
AISI는 보고서에서 "GPT-5.5의 결과는 Mythos Preview가 한 모델만의 특정 돌파구가 아니라, 장기 자율성·추론·코딩 능력의 일반적 향상이 낳은 부산물임을 시사한다"고 분석했다.
이는 사이버보안 능력의 범용화를 의미한다. Anthropic은 Mythos Preview 공개 시 "중대한 사이버 위협"을 강조하며 초기 배포를 "중요 산업 파트너"에만 제한했다. 하지만 GPT-5.5가 동등한 능력을 갖춘 채 공개 출시되자, "공포마케팅"이라는 비판이 제기되고 있다.
OpenAI의 샘 올트먼 최고경영자는 최근 팟캐스트 '코어 메모리'에서 "제한된 출시를 통한 공포 기반 마케팅이 계속될 것"이라며 비판했다. 그는 "Mythos는 사이버보안 측면에서 훌륭한 모델이겠지만, '우리는 폭탄을 만들었다. 당신 머리에 떨어뜨릴 것이다. 1억 달러에 방공호를 팔 것이다'라고 말하는 것은 명백한 마케팅"이라고 지적했다.
OpenAI는 신뢰할 수 있는 접근 제어 파일럿 프로그램으로 보안 연구자와 기업들이 신원 검증 후 방어 목적의 모델 연구에 참여할 수 있도록 했다. 지난달에는 "사이버 능력에 특화되고 제약이 줄어들도록 미세 조정된" GPT-5.4-Cyber를 제한된 사용자에게 공개했으며, GPT-5.5-Cyber도 "향후 며칠 내 중대 사이버 방어자들에게만" 제한 출시될 예정이다.
사이버위협의 고도화에 따라 AI의 공격·방어 능력 격차는 더욱 벌어질 전망이다. 한편 AISI의 평가는 개별 모델의 "특별함"이 과장되는 시대가 끝났음을 보여준다. 사이버보안 능력은 이제 모델의 기본 성능에 따라 자동으로 결정되는 영역으로 수렴하고 있다.
편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.


