OpenAI는 gpt-oss-120b와 gpt-oss-20b라는 최초의 오픈소스 대형 언어 모델을 공개함 2024년 Sebastien Bubeck은 Microsoft의 Phi 시리즈 오픈소스 모델 개발을 이끌었음 2024년 말, Sebastien Bubeck이 Microsoft를 떠나 OpenAI로 이직했음 OpenAI가 현실 적용보다 벤치마크 성능이 앞서는 Phi 스타일 모델을 선택한 이유는 안전성 때문임 OpenAI는 중국발 오픈소스 모델들보다 벤치마크상 우수하면서도 안전 사고를 피할 수 있는 모델 출시에 목표를 둔 것으로 보임
OpenAI의 gpt-oss 모델 출시와 특징
해당 모델들은 일부 벤치마크 테스트에서는 매우 뛰어난 성과를 보이지만, SimpleQA와 같은 특정 작업에서는 예상 외로 저조한 결과를 나타냄
사용자 평가는 다양한데, 일부는 모델의 성능을 높게 평가하는 반면, 트위터 등의 플랫폼에서는 부정적인 의견도 적지 않음
이 모델들은 기술적으로는 견고하지만, 특히 대중 문화 등 특정 분야의 아웃 오브 도메인 지식이 부족함
실제로 어느 정도 실용성을 가질지는 앞으로 6개월 정도의 시간이 필요하며, 실제 작업에서는 벤치마크보다 낮은 성능을 보일 가능성이 높음Phi 모델과 합성 데이터 학습
Phi 모델의 주요 특징은 인터넷이나 책에서 추출한 기존 텍스트가 아니라, 다른 언어 모델이 생성하거나 손수 선별한 교재 등 고품질 합성 데이터만으로 모델을 학습한 점임
합성 데이터는 생산 비용이 높지만, 데이터 품질과 종류를 완전히 통제할 수 있다는 장점이 있음
이런 방식의 모델은 벤치마크에서는 뛰어나지만, 실제 문제 해결에서는 실망스러운 결과를 자주 보이는 패턴이 존재함
벤치마크 성능이 인상적인 이유는 합성 데이터로 특정 테스트 유형에 최적화된 데이터를 직접 생성해 ‘시험을 위한 교육’이 용이하기 때문임
하지만 실제로는 포괄적 데이터에 기반한 모델보다 범용성에서 밀리는 현상이 반복적으로 관찰됨
gpt-oss 모델의 구체적 사전학습 단계를 공개된 정보만으로 알 수 없으나, 강하게 필터링되었거나 합성 데이터 중심으로 학습된 정황이 짙음
따라서 이 모델이 사실상 Phi-5와 유사한 방향성을 지녔을 것으로 추정됨합성 데이터의 안전성
오픈소스 모델은 외부에서 자유롭게 파인튜닝이 가능하기 때문에, 대규모 조직 입장에서는 잘못된 사용이나 안전사고로 인한 평판 위험이 항상 큼
특히 소형 언어 모델의 파인튜닝 주요 용도가 성인 역할놀이 등 안전성에 민감한 영역에 있기에, 컨트롤된 합성 데이터 사용이 필수적임
합성 데이터나 엄선된 교재만으로 학습한 모델은, 비정상적이거나 소란스러운 행동을 학습할 위험성이 낮아짐
이 방식은 "당신이 X를 부탁하지만, 상식적인 언어 모델로서는 거절하겠습니다"와 같은 반응을 무한히 학습시킬 수 있음
Meta와 달리, 실제 상용화 제품은 비공개이기 때문에, 오픈소스 모델의 실제 성능보다는 벤치마크 및 안전 전략에 집중할 수 있었음
결과적으로, OpenAI의 새로운 gpt-oss 모델은 현실적으로는 Phi-5 및 Phi-5-mini와 큰 차이 없는 모델로 평가됨