gen_ai

12분 읽기

AIB프레스 편집팀

2026.04.29

OpenAI, ChatGPT 안전 정책 전면 공개…폭력 위협 탐지 체계 공개

OpenAI가 ChatGPT의 안전 관리 체계를 상세히 공개했다. 대량 총격, 공무원 위협, 폭탄 시도 등 현실 폭력 사건이 증가하면서 AI 챗봇이 악용되는 위험에 대응하기 위한 조치다.

자동 탐지와 인적 검토의 이중 필터

OpenAI는 위험 신호를 포착하기 위해 자동 탐지 시스템과 인적 검토를 결합하는 방식을 채택했다.

자동화 단계에서는 사용자 콘텐츠와 행동을 분류기, 추론 모델, 해시 매칭 기술, 차단 목록 등 다양한 도구로 분석한다. 폭력 계획과 관련된 신호를 포착하려는 취지다. 다만 단일 메시지만으로는 판단이 어려울 수 있다. OpenAI는 장시간의 대화 흐름이나 여러 대화에 걸친 패턴 분석을 강화했다고 밝혔다.

플래그된 계정이나 대화는 훈련받은 인적 검토자가 맥락에 따라 재평가한다. 이들은 OpenAI의 정책과 절차를 교육받았으며, 사용자 정보 접근은 제한되고 보안 시스템 내에서 진행된다. 검토자들이 평가하는 요소는 상호작용의 내용, 주변 대화, 시간대별 행동 패턴이다.

"자동 시스템만으로는 의도나 뉘앙스를 완전히 포착하지 못할 수 있다"는 게 OpenAI의 설명이다. 따라서 인적 검토 단계가 필수적이라는 입장이다.

모델 훈련부터 시작

ChatGPT는 학습 단계에서부터 폭력 계획 지원 요청을 거부하도록 훈련된다. 동시에 역사적·교육적·예방적 목적으로 폭력을 다루는 중립적 질문은 허용한다. 다만 폭력 실행에 필요한 세부 작전 지시는 제공하지 않는다.

OpenAI는 '모델 스펙(Model Spec)'이라는 내부 지침을 공개했다. 여기서는 최대 도움을 제공하되, 합리적인 기본값으로 위험을 최소화한다는 원칙이 담겨 있다.

자살 위험이나 정신 건강 위기 상황에 대해서도 별도의 대응 방식을 마련했다. ChatGPT는 지역 위기 자원을 제시하고, 정신 건강 전문가나 신뢰할 수 있는 주변인 연락을 권장한다. 가장 심각한 경우에는 응급 의료 지원을 직접 권고한다.

정책 위반 시 즉각적 제재

OpenAI의 이용 정책은 위협, 협박, 괴롭힘, 테러, 폭력, 무기 개발, 불법 행위 등을 명확히 금지한다. 위반이 확인되면 OpenAI 서비스 접근 권한을 즉시 박탈한다. 이는 해당 계정 비활성화에 그치지 않고, 같은 사용자의 다른 계정까지 차단하고, 신규 계정 생성도 차단하는 방식이다.

"폭력 지원에는 제로 톨러런스 정책을 적용한다"고 OpenAI는 명시했다. 사용자는 제재에 대해 이의를 제기할 수 있으며, OpenAI는 이를 재검토한다.

법 집행기관과의 협력

위험 수준이 높은 사건은 별도의 심화 조사 단계로 올라간다. 이 단계는 제한된 사례에만 적용되며, 구조화된 기준으로 위험 수준을 재평가한다.

OpenAI는 "현실적이고 실질적인 해악의 위험이 임박하고 신뢰할 만하다"고 판단하면 법 집행 기관에 통보한다. 정신 건강 및 행동 전문가들이 판단이 필요한 사건들을 평가하는 데 참여한다. 통보 기준은 유연해서, 사용자가 ChatGPT 대화에서 계획의 목표·수단·시간을 명확히 언급하지 않았더라도 임박한 폭력 위협이 감지되면 대응한다.

부모와 신뢰 연락처 기능 추가

OpenAI는 지난해 가을 '부모 통제' 기능을 선보였다. 부모가 자신의 계정과 청소년 자녀의 계정을 연동하고, 나이에 맞는 안전한 환경을 맞춤할 수 있다. 부모는 자녀의 대화 내용에는 접근할 수 없으나, OpenAI 시스템과 인적 검토자가 심각한 정신적 위기 신호를 감지하면 부모에게만 필요한 정보를 알린다.

곧 '신뢰할 수 있는 연락처' 기능도 도입할 예정이다. 성인 사용자가 지정한 사람이 추가 지원이 필요한 시점에 알림을 받는 방식이다. OpenAI의 웰빙·AI 위원회와 전 세계 의사 네트워크가 이 기능 개발에 참여했다.

자동화와 투명성 사이의 균형

OpenAI의 이번 공개는 AI 안전 정책의 기술적 특성을 보여준다. 자동 탐지 시스템으로 대규모 위험을 포착하되, 인적 검토로 상황 맥락을 반영하는 것이다. 동시에 법 집행과의 협력은 프라이버시 우려를 낳는다.

특히 사생활 보호와 공동체 안전이라는 두 원칙이 충돌하는 지점이 있다. OpenAI는 "심리학자, 정신과의사, 시민자유 전문가, 법 집행 인력 등의 의견을 받아 어려운 결정을 내린다"고 했지만, 자동 탐지 기준과 인적 검토의 투명성 수준은 여전히 공개되지 않았다.

AI 챗봇의 확산 속도가 규제 체계를 앞서가는 현실에서, 기술 기업의 자율적 안전 관리 역할이 커지고 있다. OpenAI의 이번 공개가 업계 기준이 될 수 있을지, 또한 한국을 포함한 세계 각국의 AI 안전 규제가 이와 어떻게 조화를 이룰지가 향후 과제다.

원문 출처

https://openai.com/index/our-commitment-to-community-safety

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

OpenAI

ChatGPT

정책

AI 안전

콘텐츠 모더레이션

AIB프레스

OpenAI, ChatGPT 안전 정책 전면 공개…폭력 위협 탐지 체계 공개

OpenAI, ChatGPT 안전 정책 전면 공개…폭력 위협 탐지 체계 공개

자동 탐지와 인적 검토의 이중 필터

모델 훈련부터 시작

정책 위반 시 즉각적 제재

법 집행기관과의 협력

부모와 신뢰 연락처 기능 추가

자동화와 투명성 사이의 균형

원문 출처

관련 기사

블룸버그 터미널에 AI 챗봇 'ASKB' 통합...금융 데이터 분석 접근 방식 전환

AI 수도 샌프란시스코, 경제 낙후지로 전락하는 역설

머스크 vs 샘 알트먼 소송, 배심원들이 머스크 호감도 낮아...재판 선입견 영향