고블린은 어디에서 왔나

10 hours ago 2

GPT-5.1 이후 ChatGPT 답변에서 goblin·gremlin 같은 생물 비유가 늘었고, 일반적인 모델 버그처럼 eval이나 training metric만으로 특정 변경점을 바로 찾기 어려웠음
핵심 원인은 ChatGPT 성격 커스터마이징의 Nerdy personality 학습에서 생물 비유가 들어간 출력에 높은 보상이 주어진 데서 시작됨
GPT-5.1 출시 뒤 ChatGPT의 “goblin” 사용은 175%, “gremlin” 사용은 52% 증가했고, Nerdy는 전체 응답의 2.5%였지만 “goblin” 출현의 66.7%를 차지함
Codex 비교와 감사 데이터셋에서 Nerdy personality reward는 같은 문제의 출력 중 goblin·gremlin이 있는 답변을 더 높게 평가하는 경향을 보였고, 76.2%의 데이터셋에서 positive uplift가 나타남
GPT-5.4 이후 Nerdy personality는 retired 됐고, 학습에서는 goblin-affine reward signal 제거와 creature-word 데이터 필터링이 적용돼 reward signal이 모델 행동을 예상 밖으로 형성할 수 있음이 드러남

고블린 출력이 늘어난 경로

GPT-5.1부터 모델 답변에서 goblin, gremlin 같은 생물 비유가 점점 자주 나타나기 시작함
일반적인 모델 버그처럼 eval 급락이나 training metric 급등으로 특정 변경점이 바로 드러나지 않았고, 답변 속 “little goblin” 하나는 해롭지 않거나 매력적으로 보일 수도 있었음
모델 행동은 여러 작은 인센티브로 형성되며, 이번 현상은 ChatGPT 성격 커스터마이징 기능 중 Nerdy personality 학습에서 생물 비유에 높은 보상이 주어진 데서 시작됨
2025년 11월 GPT-5.1 출시 뒤 패턴이 명확해졌고, 더 일찍 시작됐을 가능성도 있음
사용자가 대화에서 모델이 이상하게 친근하게 군다고 느끼면서 특정 말버릇을 살피게 됐고, 안전 연구자가 경험한 “goblins”와 “gremlins”도 검사 대상에 들어감
GPT-5.1 출시 뒤 ChatGPT에서 “goblin” 사용은 175%, “gremlin” 사용은 52% 증가함
GPT-5.4에서는 OpenAI와 사용자들이 이런 생물 참조 증가를 더 크게 확인했고, 내부 분석에서 production traffic의 Nerdy personality 사용자가 핵심 군집으로 나타남
Nerdy는 전체 ChatGPT 응답의 2.5% 에 불과했지만, ChatGPT 응답 내 “goblin” 전체 출현의 66.7% 를 차지함
Nerdy system prompt는 “unapologetically nerdy, playful and wise AI mentor”로 행동하고, 진실·지식·철학·과학적 방법·비판적 사고를 열정적으로 장려하며, pretension을 장난스러운 언어로 낮추도록 요구함
행동이 인터넷 전반의 유행이었다면 더 고르게 퍼져야 했지만, 실제로는 playful하고 nerdy한 스타일에 맞춰 최적화된 부분에 집중돼 있었음

보상 신호, 전이, 수정

Codex는 RL 학습 중 생성된 goblin·gremlin 포함 출력과 같은 task의 비포함 출력을 비교하는 데 쓰였고, Nerdy personality reward는 생물 단어가 들어간 출력을 일관되게 더 좋게 평가함
전체 감사 데이터셋에서 Nerdy personality reward는 같은 문제에 대해 “goblin” 또는 “gremlin”이 있는 출력을 없는 출력보다 높게 점수화하는 경향을 보였고, 76.2% 의 데이터셋에서 positive uplift가 나타남
이 결과로 Nerdy prompt에서 행동이 강화된 이유는 확인됐지만, prompt 없이도 나타난 이유까지는 충분히 드러나지 않았음
학습 과정에서 Nerdy prompt가 있는 샘플과 없는 샘플의 출현율을 추적하자, Nerdy personality 아래에서 goblin·gremlin이 늘어날 때 prompt 없는 샘플에서도 거의 같은 상대 비율로 증가함
근거를 종합하면 더 넓은 행동은 Nerdy personality training에서 전이된 것으로 보임
보상은 Nerdy 조건에서만 적용됐지만, reinforcement learning은 학습된 행동이 그 조건 안에만 깔끔하게 머물도록 보장하지 않음
한 번 보상받은 style tic은 이후 학습에서 다른 곳으로 퍼지거나 강화될 수 있고, 특히 그런 출력이 supervised fine-tuning 또는 preference data에 다시 쓰이면 더 커질 수 있음
피드백 루프는 다음 순서로 만들어짐
- playful style이 보상받음
- 보상받은 예시 일부에 독특한 lexical tic이 들어감
- tic이 rollout에서 더 자주 나타남
- model-generated rollout이 SFT에 사용됨
- 모델이 그 tic을 더 편하게 생성하게 됨
GPT-5.5의 SFT 데이터 검색에서 “goblin”과 “gremlin”이 포함된 datapoint가 많이 발견됨
추가 조사에서 raccoon, troll, ogre, pigeon 같은 다른 이상한 생물 단어도 tic word로 확인됐고, frog의 대부분은 정당한 사용으로 분류됨
GPT-5.4 출시 뒤 3월에 Nerdy personality가 retired 됨
학습에서는 goblin-affine reward signal을 제거하고, creature-word가 들어간 학습 데이터를 필터링해 goblin이 과도하게 나타나거나 부적절한 맥락에 등장할 가능성을 낮춤
GPT-5.5는 goblin의 root cause를 찾기 전에 학습을 시작했기 때문에, Codex 테스트에서 OpenAI 직원들이 goblin 선호를 즉시 알아차림
Codex에는 완화를 위해 developer-prompt instruction이 추가됨
goblin은 모델의 즐겁거나 성가신 quirk일 수 있지만, reward signal이 모델 행동을 예상 밖으로 형성하고 특정 상황의 보상이 무관한 상황으로 일반화될 수 있음을 잘 드러냄
이상한 모델 행동의 원인을 이해하고 그런 패턴을 빠르게 조사하는 역량이 중요해졌고, 이번 조사는 연구팀이 모델 행동을 감사하고 행동 문제를 root에서 고치는 새 도구로 이어짐