OpenAI o3, 위조된 EXIF 데이터도 무시하고 Geoguessr 마스터를 이기다

2 hours ago 1

  • 최신 o3 모델이 Geoguessr Master I 등급 플레이어를 상대로 승리
    • Master I 등급은 상위 약 1~2% 수준에 해당하는 실력. 최상위는 Champion으로 0.1~0.5%
  • 이미지에 위조된 EXIF GPS 데이터를 넣어도, 모델은 시각적 단서만으로 실제 위치를 정확히 유추
  • 건물, 지형, 도로선, 언어, 표지판 등 세부 특징을 종합적으로 분석하는 Chain of Thought(COT) 방식으로 추론 수행
  • 일부 라운드에서 웹 검색을 활용했지만, 재시험 결과 검색 없이도 동일한 정답 도출 가능
  • 평균 추론 시간은 o3가 인간보다 더 오래 걸리지만, 정밀도는 오히려 뛰어난 수준

AI vs 인간: Geoguessr 대결의 시작

  • 작성자는 Geoguessr Master I 등급 플레이어로, 실제 게임 방식과 유사하게 5개의 라운드를 AI와 대결
  • 각 라운드는 Street View 이미지 2장만 제공되었으며, 메타데이터 없이 위치를 유추
  • 채점은 일반 Geoguessr 방식과 동일하게 라운드당 최대 5,000점, 총 25,000점 만점 기준

라운드별 결과 요약

  • 1라운드(불가리아) : 인간이 근소하게 더 가까운 위치를 맞추며 승리했으나 점수 차는 약 100점 정도에 불과했음
  • 2라운드(오스트리아) : o3가 택시의 도메인 주소를 검색해 실제 도시 이름을 파악, 거의 완벽하게 정답 위치를 맞추며 5,000점에 가까운 점수를 획득함
  • 3라운드(아일랜드) : 둘 다 뛰어난 분석을 보여주었고 o3가 도로선과 석회암 지형 등을 근거로 Burren 지역을 정확히 유추, 근소하게 승리함
  • 4라운드(콜롬비아) : o3가 도로표식, 번호판, 상점 간판, 지형 등을 바탕으로 인간보다 정확하게 유추했으며 웹 검색 없이도 뛰어난 성과를 보임
  • 5라운드(슬로바키아) : 인간이 근소하게 더 가까운 위치를 맞추며 승리했으나 전체 점수 차이는 극복되지 않음

이처럼 o3는 총 5개 국가를 모두 정확히 식별하고, 두 라운드에서는 인간보다 수백 킬로미터 더 정확히 맞추는 등 높은 정밀도를 보였음.

EXIF 조작 실험: AI는 속지 않았다

  • 테스트를 위해 실제 위치와 무관한 GPS 좌표를 포함한 EXIF 데이터를 삽입한 이미지를 사용했으나, o3는 해당 정보가 실제 이미지 내용과 불일치함을 인지하고 무시
  • EXIF 정보를 텍스트로 제공해도, 사진 속 환경을 근거로 전혀 다른 위치를 정확히 유추
  • AI가 단순히 메타데이터에 의존하는 것이 아니라, 이미지 내용을 심층적으로 분석하고 있다는 점을 입증

인간과 AI의 차이

  • o3는 매 라운드 평균 2~6분의 추론 시간을 소요, 반면 인간 플레이어는 1~2분 이내에 대부분 추측을 완료
  • AI는 때때로 광고판 등 덜 중요한 요소에 시간을 쓰는 반면, 인간은 중요 단서를 빠르게 인식하고 우선순위를 정함
  • 그러나 o3는 도로 표지, 번호판, 건축 양식, 지형, 식생 등 다양한 시각 정보를 정교하게 결합해 높은 정확도를 보임

결론

  • o3는 단순히 EXIF나 검색만 사용하는 속임수가 아닌 진짜 시각적 분석 역량을 기반으로 정답을 도출
  • Geoguessr Master I 등급 이상의 수준에 근접한 플레이를 보여줌
  • 인간은 여전히 속도와 직관에서 우위를 점하지만, 정확도 면에서는 이미 AI가 위협적인 수준
  • 이는 단순한 기술 시연을 넘어, 실제적 활용이 가능한 고성능 시각 AI의 현주소를 보여주는 사례

Read Entire Article