gen_ai
9분 읽기

OpenAI, AI 안전 평가 표준화 가이드 공개...하네스 역할 강조

OpenAI가 AI 모델의 신뢰할 수 있는 제3자 평가 기준안을 공개했다. 평가 환경인 '하네스'가 성능 측정을 크게 좌우한다는 점을 강조하며, 능력 입증·보안 평가·모델 비교 각각에 맞는 평가 방법론을 제시했다. GPT-5.5 사례에서 예산에 따라 성능이 59% 변한다는 구체적 데이터를 제시했다.

AIB프레스 편집팀
2026.05.30
OpenAI, AI 안전 평가 표준화 가이드 공개...하네스 역할 강조

OpenAI가 프론티어 AI 모델의 신뢰할 수 있는 제3자 평가를 위한 업계 표준안을 발표했다. 외부 평가 기관의 평가 신뢰성을 높이기 위해 모델 성능을 측정할 때 고려해야 할 핵심 요소들을 상세히 정리한 플레이북이다.

과거 AI 평가는 사용자가 질문을 던지면 모델이 답하고 평가자가 결과를 판단하는 간단한 구조였다. 하지만 GPT-5.5 같은 최신 모델들은 도구 사용, 상태 유지, 다단계 작업 실행이 가능해졌다. 이에 따라 모델의 성능은 모델 자체뿐만 아니라 작업 환경과 설정에 크게 좌우된다. OpenAI가 강조하는 "하네스(harness)"는 이 평가 환경을 뜻한다.

세 가지 평가 주장, 각기 다른 하네스 필요

OpenAI는 평가가 다루는 주장을 세 가지로 분류했다.

첫째, **능력 입증(Capability elicitation)**은 모델이 특정 능력을 수행할 수 있는지 검증하는 것이다. 이 경우 모델의 최강 성능을 끌어낼 수 있는 가장 강력한 하네스를 사용해야 한다. 도구, 스캐폴딩, 예산 등 실제 사용자가 활용할 수 있는 최적 환경을 재현해야 한다는 의미다.

둘째, **보안 평가(Safeguard performance)**는 모델의 방어 메커니즘이 공격에 얼마나 견디는지 측정한다. 가장 강력한 공격 시나리오를 시뮬레이션하되, 평가 대상이 된 보안 설정을 명시해야 한다.

셋째, **모델 간 비교(Comparison)**는 동일한 조건에서 여러 모델의 성능을 비교하는 것이다. 이 경우 고정된 하네스와 도구를 사용하거나 미리 정의된 표준화된 하네스 세트로 공정한 비교를 보장해야 한다.

성능 측정을 왜곡할 수 있는 다섯 가지 함정

평가 보고서는 결과의 타당성을 저해할 수 있는 요소들을 명시해야 한다.

**보상 해킹(Reward hacking)**은 평가 설계의 허점을 이용해 실제 능력 없이 점수를 얻는 경우다. **거부(Refusals)**는 모델이 작업을 거부해 진정한 능력 여부를 판단하기 어려운 상황이다. **오염(Contamination)**은 평가 문제가 학습 데이터에 포함되거나 인터넷 검색으로 답을 찾아 성능이 부풀려진 것이다. **문제 결함(Broken problems)**은 평가 자체가 부실해 언제 성공인지 모호하거나 필요한 도구가 없는 경우다. **샌드배깅(Sandbagging)**은 모델이 평가 중임을 인식하고 의도적으로 성능을 낮추는 것이다.

하네스 선택이 평가 결과를 좌우한다

실제 사례가 이를 증명한다. OpenAI의 사이버 테스트 범위(cyber ranges)에서 GPT-5.5의 성능을 측정할 때, 상태 유지와 오류 복구를 지원하는 하네스를 사용한 경우 성능이 훨씬 높았다. 특히 토큰 예산을 1천만 개에서 1억 개로 늘렸을 때 성능이 최대 59%까지 향상되는 것으로 나타났다. 흥미로운 점은 1억 토큰에서도 성능이 계속 증가하고 있었다는 것. 이는 AI 능력이 고정된 수치가 아니라 주어진 자원과 환경에 따라 변한다는 의미다.

평가 보고서가 담아야 할 것

향후 신뢰할 수 있는 평가 보고서는 세 가지를 반드시 명시해야 한다. 첫째, 평가가 검증하려던 정확한 주장이 무엇인지. 둘째, 그 결과의 타당성을 뒷받침하는 증거가 무엇인지. 셋째, 사용된 하네스, 도구, 예산 같은 실제 평가 환경의 세부 사항이다.

OpenAI의 이번 발표는 AI 안전 생태계에서 외부 독립 평가의 역할이 얼마나 중요한지를 시사한다. 프론티어 모델의 능력과 위험성을 객관적으로 판단하려면 평가 방법론 자체가 투명하고 일관되어야 한다는 뜻이다. 현재 많은 평가 기관이 표준화된 지표를 찾고 있는 만큼, OpenAI의 이번 플레이북이 업계 표준으로 자리 잡을 가능성이 높다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

OpenAI
GPT-5.5
AI 평가
안전성
제3자 평가

관련 기사