고블린은 어디에서 왔나
10 hours ago
2
- GPT-5.1 이후 ChatGPT 답변에서 goblin·gremlin 같은 생물 비유가 늘었고, 일반적인 모델 버그처럼 eval이나 training metric만으로 특정 변경점을 바로 찾기 어려웠음
- 핵심 원인은 ChatGPT 성격 커스터마이징의 Nerdy personality 학습에서 생물 비유가 들어간 출력에 높은 보상이 주어진 데서 시작됨
- GPT-5.1 출시 뒤 ChatGPT의 “goblin” 사용은 175%, “gremlin” 사용은 52% 증가했고, Nerdy는 전체 응답의 2.5%였지만 “goblin” 출현의 66.7%를 차지함
- Codex 비교와 감사 데이터셋에서 Nerdy personality reward는 같은 문제의 출력 중 goblin·gremlin이 있는 답변을 더 높게 평가하는 경향을 보였고, 76.2%의 데이터셋에서 positive uplift가 나타남
- GPT-5.4 이후 Nerdy personality는 retired 됐고, 학습에서는 goblin-affine reward signal 제거와 creature-word 데이터 필터링이 적용돼 reward signal이 모델 행동을 예상 밖으로 형성할 수 있음이 드러남
고블린 출력이 늘어난 경로
- GPT-5.1부터 모델 답변에서 goblin, gremlin 같은 생물 비유가 점점 자주 나타나기 시작함
- 일반적인 모델 버그처럼 eval 급락이나 training metric 급등으로 특정 변경점이 바로 드러나지 않았고, 답변 속 “little goblin” 하나는 해롭지 않거나 매력적으로 보일 수도 있었음
- 모델 행동은 여러 작은 인센티브로 형성되며, 이번 현상은 ChatGPT 성격 커스터마이징 기능 중 Nerdy personality 학습에서 생물 비유에 높은 보상이 주어진 데서 시작됨
- 2025년 11월 GPT-5.1 출시 뒤 패턴이 명확해졌고, 더 일찍 시작됐을 가능성도 있음
- 사용자가 대화에서 모델이 이상하게 친근하게 군다고 느끼면서 특정 말버릇을 살피게 됐고, 안전 연구자가 경험한 “goblins”와 “gremlins”도 검사 대상에 들어감
- GPT-5.1 출시 뒤 ChatGPT에서 “goblin” 사용은 175%, “gremlin” 사용은 52% 증가함
- GPT-5.4에서는 OpenAI와 사용자들이 이런 생물 참조 증가를 더 크게 확인했고, 내부 분석에서 production traffic의 Nerdy personality 사용자가 핵심 군집으로 나타남
- Nerdy는 전체 ChatGPT 응답의 2.5% 에 불과했지만, ChatGPT 응답 내 “goblin” 전체 출현의 66.7% 를 차지함
- Nerdy system prompt는 “unapologetically nerdy, playful and wise AI mentor”로 행동하고, 진실·지식·철학·과학적 방법·비판적 사고를 열정적으로 장려하며, pretension을 장난스러운 언어로 낮추도록 요구함
- 행동이 인터넷 전반의 유행이었다면 더 고르게 퍼져야 했지만, 실제로는 playful하고 nerdy한 스타일에 맞춰 최적화된 부분에 집중돼 있었음
보상 신호, 전이, 수정
- Codex는 RL 학습 중 생성된 goblin·gremlin 포함 출력과 같은 task의 비포함 출력을 비교하는 데 쓰였고, Nerdy personality reward는 생물 단어가 들어간 출력을 일관되게 더 좋게 평가함
- 전체 감사 데이터셋에서 Nerdy personality reward는 같은 문제에 대해 “goblin” 또는 “gremlin”이 있는 출력을 없는 출력보다 높게 점수화하는 경향을 보였고, 76.2% 의 데이터셋에서 positive uplift가 나타남
- 이 결과로 Nerdy prompt에서 행동이 강화된 이유는 확인됐지만, prompt 없이도 나타난 이유까지는 충분히 드러나지 않았음
- 학습 과정에서 Nerdy prompt가 있는 샘플과 없는 샘플의 출현율을 추적하자, Nerdy personality 아래에서 goblin·gremlin이 늘어날 때 prompt 없는 샘플에서도 거의 같은 상대 비율로 증가함
- 근거를 종합하면 더 넓은 행동은 Nerdy personality training에서 전이된 것으로 보임
- 보상은 Nerdy 조건에서만 적용됐지만, reinforcement learning은 학습된 행동이 그 조건 안에만 깔끔하게 머물도록 보장하지 않음
- 한 번 보상받은 style tic은 이후 학습에서 다른 곳으로 퍼지거나 강화될 수 있고, 특히 그런 출력이 supervised fine-tuning 또는 preference data에 다시 쓰이면 더 커질 수 있음
- 피드백 루프는 다음 순서로 만들어짐
- playful style이 보상받음
- 보상받은 예시 일부에 독특한 lexical tic이 들어감
- tic이 rollout에서 더 자주 나타남
- model-generated rollout이 SFT에 사용됨
- 모델이 그 tic을 더 편하게 생성하게 됨
- GPT-5.5의 SFT 데이터 검색에서 “goblin”과 “gremlin”이 포함된 datapoint가 많이 발견됨
- 추가 조사에서 raccoon, troll, ogre, pigeon 같은 다른 이상한 생물 단어도 tic word로 확인됐고, frog의 대부분은 정당한 사용으로 분류됨
- GPT-5.4 출시 뒤 3월에 Nerdy personality가 retired 됨
- 학습에서는 goblin-affine reward signal을 제거하고, creature-word가 들어간 학습 데이터를 필터링해 goblin이 과도하게 나타나거나 부적절한 맥락에 등장할 가능성을 낮춤
- GPT-5.5는 goblin의 root cause를 찾기 전에 학습을 시작했기 때문에, Codex 테스트에서 OpenAI 직원들이 goblin 선호를 즉시 알아차림
- Codex에는 완화를 위해 developer-prompt instruction이 추가됨
- goblin은 모델의 즐겁거나 성가신 quirk일 수 있지만, reward signal이 모델 행동을 예상 밖으로 형성하고 특정 상황의 보상이 무관한 상황으로 일반화될 수 있음을 잘 드러냄
- 이상한 모델 행동의 원인을 이해하고 그런 패턴을 빠르게 조사하는 역량이 중요해졌고, 이번 조사는 연구팀이 모델 행동을 감사하고 행동 문제를 root에서 고치는 새 도구로 이어짐
-
Homepage
-
개발자
- 고블린은 어디에서 왔나