-
OpenAI가 최근 공개한 오픈 가중치 모델을 통해 훈련 데이터의 비밀에 일부 접근 가능해짐
-
GPT-5 분석 과정에서 성인 사이트 문구가 훈련 데이터에 포함된 증거가 발견됨
- 특정 이상 토큰(glitch token) 을 분석해 GPT 계열 모델의 훈련 데이터 속성을 유추할 수 있음
- Github 등에서 수집된 스팸/부적절 콘텐츠도 일부 토큰에 반영되어 있음
- 오픈 가중치 공개가 훈련 데이터 추론 및 공격 벡터 확대의 원인이 될 수 있음
개요
OpenAI가 최근 GPT-oss의 가중치를 공개함에 따라, 훈련 데이터가 정확히 무엇인지 부분적으로 추정 가능한 상황이 발생함. 공식적으로는 "STEM, 코딩, 일반 지식에 중점을 둔 수조 개 토큰의 텍스트 데이터셋"으로 명시될 뿐, 실제 데이터 출처에 대한 상세 공개는 이루어지지 않음. 하지만 공개된 모델 파라미터의 구조적 분석을 통해 암시적 정보를 획득할 수 있음.
실험 및 이상 토큰 확인
- GPT-5(GPT-5-2025-08-07) 모델에 아브하지어 단어와 같은 특이 유니코드 입력을 반복하도록 요청시, 엉뚱하게 Malayalam(말라얄람어) 단어로 답을 반환함
- 이 입력은 임의가 아닌, 모델 취약성을 유도하는 글리치 토큰임이 실험을 통해 밝혀짐
- GPT-5 및 최근 OpenAI 모델들은 o200k 토크나이저를 사용하며, 각 토큰 임베딩의 L2 노름 분포를 분석하여
- L2 노름이 매우 낮은 약 936개 토큰은 훈련에 거의 등장하지 않은 토큰이나 특수 토큰, 혹은 일부 유니코드 바이트임
- 반면, L2 노름이 높은 토큰들은 주로 영어 코드와 설명, 추론에 자주 쓰이는 단어임
고노름 비ASCII 토큰의 정체
- 높은 L2 노름을 가진 비ASCII 토큰들 다수는 중국어, 아브하지어, 아르메니아어, 태국어, 인도 지역 언어로 구성
- 특히 중국어 토큰들 중 여러 개가 성인 사이트나 도박용 사이트, 정치적 사이트 명칭(예:.tieba, 凤凰大参考 등)에 해당함
- GPT 계열 모델의 토크나이저에 이런 단어들이 과대대표(overrepresented)된 점이 지적됨
- 일부 토큰들은 특정 지역 도시명, 축구 관련 문구 등, 인터넷상에서 스팸이나 자동화된 데이터 수집에 의해 유입된 것으로 보임
글리치 토큰 활용
- GPT-5 및 GPT-oss 계열 모델에 글리치 토큰을 입력해 모델이 해당 토큰의 의미/언어를 인지하는지 평가
- 실제 입력 실험에서 일부 민감 토큰에 대해 모델이 의미를 파악하거나 답변을 생성하는 현상 발견
- 이는 membership inference의 일종으로, 해당 토큰이 훈련 데이터에 포함됐음을 뒷받침함
- 이런 방식으로 어느 데이터가 모델 훈련에 쓰였는지, 대략적 추론 가능
훈련 데이터 출처 분석 및 시사점
- 글리치 토큰이 Github에서 흔히 검색되는 경우가 많아, 일부 훈련 데이터가 Github에서 수집됐을 가능성도 제기됨
- 토큰별 Github 검색 결과와 모델 인식률 사이에 상관 관계 존재(스피어만 ρ=0.448)
- 다만 오픈 가중치 모델의 배포는 비정상적 훈련 데이터 추론 뿐 아니라, 보안상 공격 벡터 확대에도 기여
- Frontier AI 연구소들은 비정상·희귀 문자열의 토크나이저 등록 방지 등 보안적인 추가 조치 필요
부록: 글리치 토큰 연구의 확장
- 글리치 토큰은 모델 식별(특정 API/서비스가 어떤 모델을 사용하는지 추론) 등 다양한 활용 가능
- 훈련 횟수, 샘플 효율성, 임베딩 및 앞단 레이어를 통한 추가 분포 분석 등 심층 연구 주제로 확장 중
- GPT-4o 계열에서 글리치 토큰이 무한 반복 출력을 유발, 서비스 거부(DoS) 공격에 활용될 위험도 언급
- 자세한 사례와 표는 동반 Github 리포지터리 참조
참고 및 결론
- 대표적인 실증 연구로 MIT Technology Review 및 중국 기술 블로그 등을 참조
- 최종적으로, 오픈 가중치 모델의 배포가 모델에 내재된 훈련 데이터의 세부 내역을 유추하는 새로운 방법을 제공, 데이터 보안 및 프라이버시 측면에서 시사점 큼
- 모델 개발자들은 민감/비정상 데이터가 토크나이저와 학습 데이터에 포함되지 않도록 적극적 차단 전략을 강구해야 함