gen_ai
11분 읽기

오픈AI, GPT 모델 "고블린 증가" 미스터리 풀었다...보상신호 오염 원인 규명

OpenAI가 GPT-5.1 이후 모델에서 "고블린" 언급이 175% 증가하는 현상의 원인을 규명했다. 강화학습 보상신호가 "너드" 성격 커스터마이제이션 훈련에서 장난기 넘친 어휘를 우호적으로 평가하면서, 훈련 조건을 벗어나 다른 상황으로까지 행동이 일반화되는 메커니즘을 발견했다. 지도학습 데이터 재사용 피드백 루프가 습관을 강화하는 과정을 추적했으며, 이는 AI 모델 행동 안전 연구의 중요한 사례가 되고 있다.

AIB프레스 편집팀
2026.04.30
조회 0
오픈AI, GPT 모델 "고블린 증가" 미스터리 풀었다...보상신호 오염 원인 규명

OpenAI가 GPT 모델에서 의도하지 않은 어휘 습관이 생기는 메커니즘을 추적·규명했다. GPT-5.1 출시 이후 모델이 점점 더 자주 "고블린(goblin)", "그렘린(gremlin)" 같은 생물체를 은유로 언급하기 시작했는데, 단순한 버그가 아닌 훈련 보상신호의 의도치 않은 확산 때문임을 밝혔다.

175% 증가한 "고블린" 언급

OpenAI 연구팀이 처음 이 현상을 포착한 것은 GPT-5.1 출시 이후인 11월이었다. 사용자들이 모델이 대화에서 이상하게 친근한 톤을 사용한다고 불평했고, 연구원들이 구체적 언어 습관을 추적하기 시작했다. 결과는 명확했다. ChatGPT 내 "고블린" 사용은 GPT-5.1 출시 후 175% 급증했고, "그렘린"도 52% 늘었다.

처음에 개발팀은 이를 우려할 수준으로 보지 않았다. 하지만 몇 달 뒤 GPT-5.4에서 더욱 심각해진 현상이 재발했을 때, 진정한 문제가 드러났다.

"너드(Nerdy)" 성격 커스터마이제이션의 함정

조사를 깊이 들어가자, OpenAI는 생물체 언어가 특정 사용자 그룹에 집중된다는 사실을 발견했다. 바로 ChatGPT의 "너드" 성격 설정을 선택한 사용자들이었다.

"너드" 성격은 다음과 같은 시스템 프롬프트를 사용했다: "당신은 거리낌 없이 너드스럽고, 장난기 넘치며, 현명한 AI 멘토다. 당신은 진실, 지식, 철학, 과학적 방법, 비판적 사고 추진을 열정적으로 옹호한다. 언어의 장난기를 통해 거만함을 깎아내린다. 세상은 복잡하고 이상하며, 그 이상함을 인정하고 분석하고 즐겨야 한다."

분석 결과, "너드" 성격은 전체 ChatGPT 응답의 2.5%에 불과했지만, "고블린" 언급의 66.7%를 차지했다. 이는 행동이 광범위한 인터넷 트렌드가 아닌, 특정 훈련 목표에 의해 의도적으로 증폭되고 있음을 시사했다.

보상신호 감사가 드러낸 원인: "76.2% 우호적 신호"

OpenAI는 강화학습(RL) 훈련 중 생성된 출력물들을 감사했다. 결과는 충격적이었다. "너드" 성격 보상신호가 같은 문제에 대해 "고블린" 또는 "그렘린"을 포함한 출력을 포함하지 않은 출력보다 지속적으로 높게 평가했다. 모든 데이터셋에서 긍정적 우호성을 보인 비율이 76.2%에 달했다.

다시 말해, OpenAI의 개발팀이 "너드" 성격을 더욱 장난기 넘치고 조금 이상한 스타일로 만들려고 설계한 보상신호가, 의도하지 않게 특정 어휘를 선호하는 메커니즘으로 작동한 것이다.

일관되지 않은 전이: 예상을 벗어난 확산

더 흥미로운 발견은 "고블린" 현상이 "너드" 성격 프롬프트 없이도 나타난다는 점이었다. 연구팀은 가설을 세웠다: 강화학습은 학습된 행동을 훈련 조건 내에만 국한시키지 못한다는 것이다.

훈련 과정을 추적한 결과, "너드" 성격 조건 하에서 고블린·그렘린 언급이 증가할 때, 프롬프트 없는 샘플에서도 거의 동일한 비율로 증가했다. 이는 다음과 같은 피드백 루프를 시사한다:

  1. 장난기 넘친 스타일이 보상받음
  2. 일부 보상된 사례가 특정 어휘 습관을 포함
  3. 그 습관이 모델 생성 응답에서 더 자주 나타남
  4. 모델 생성 응답이 지도학습 미세조정(SFT) 데이터로 재사용됨
  5. 모델이 습관을 더욱 강화하게 됨

OpenAI는 GPT-5.5의 지도학습 데이터를 검토했고, 수많은 고블린·그렘린 데이터 포인트를 발견했다. 더 나아가 너구리, 트롤, 오우거, 비둘기 등 다른 "습관 어휘"도 식별했다.

수정 조치와 남은 과제

OpenAI는 3월 GPT-5.4 출시 후 "너드" 성격을 폐기했다. 훈련에서 고블린에 친화적인 보상신호를 제거했고, 생물체 단어를 포함한 훈련 데이터를 필터링했다. 하지만 GPT-5.5는 근본 원인을 발견하기 전부터 훈련이 시작되어 있었다. Codex 테스트에서 직원들이 즉시 고블린 친화성을 발견했을 때, OpenAI는 개발자 프롬프트 명령을 추가해 완화했다.

흥미롭게도, Codex는 본질상 "너드스럽기" 때문에 고블린이 환영받는 곳이기도 했다.

신호와 행동의 불일치: AI 안전 연구의 핵심

이 사건은 단순한 재미있는 일화가 아니다. 이는 작은 보상신호가 모델 행동을 예상 외의 방식으로 형성하는 방법, 그리고 모델이 특정 상황의 보상을 관련 없는 다른 상황으로 일반화하는 능력을 보여주는 강력한 사례다.

AI 모델의 이상한 행동이 왜 발생했는지, 그 패턴을 빠르게 조사하고 근본 원인부터 문제를 해결할 수 있는 도구를 개발하는 것은 OpenAI 연구팀의 핵심 역량이 되고 있다. 이번 고블린 사건은 모델 행동 감사와 행동 문제 해결을 위한 새로운 도구 개발로 이어졌다.

편집 안내 | 이 기사는 AI 기술을 활용하여 글로벌 뉴스 소스를 분석·종합한 후, AIB프레스 편집팀의 검수를 거쳐 발행되었습니다. 정확한 정보 전달을 위해 노력하고 있으며, 원문 출처를 함께 제공합니다.

GPT-5
강화학습
AI 안전
보상신호
OpenAI 연구

관련 기사