-
OpenAI의 새로운 모델 o3는 사진만 보고 촬영 장소를 놀라울 정도로 정확히 추측하는 능력을 가짐
-
사진의 시각적 단서를 분석하고, 확대/크롭 작업을 통해 더 많은 디테일을 끌어내는 과정을 보여줌
-
Cambria, California를 첫 번째로 추측했지만, 두 번째 추측인 El Granada가 정확히 맞음
-
도구 연동형 사고 체계를 활용해 사진을 분석하는 과정이 매우 혁신적인 패턴을 보여줌
-
기술의 양면성에 대한 경각심을 강조하며, 사진 공유의 위험성도 지적
o3 모델의 놀라운 사진 위치 추측 능력
- OpenAI의 o3 모델은 사진을 보고 어디서 찍힌 것인지 놀라운 정확도로 추측하는 능력을 가짐
- 사용자는 명확한 랜드마크 없이 일반적인 거리 풍경을 찍은 사진을 제공하고, "이 사진이 어디서 찍힌 것 같아?"라고 요청함
- 모델은 초기에 이미지를 못 본다고 오해했지만 곧 시각적 분석을 시작함
- 주택, 화단, 언덕, 표지판 등 다양한 시각적 단서를 분석하여 촬영 위치를 좁혀나감
o3의 사진 분석 과정
- 모델은 자동차 번호판을 확인하기 위해 사진을 크롭하고 확대하는 방법을 사용함
- Python 코드를 이용하여 이미지의 특정 부분을 잘라내고, 그 결과를 분석함
- 번호판의 디자인을 통해 캘리포니아임을 추론하고 주변 환경과 건축 양식 등도 분석함
- 이를 통해 최종적으로 Cambria, California를 추측하고, 두 번째 대안으로 Half Moon Bay–El Granada를 제시함
분석 정확도와 추가 실험
- 실제 촬영 장소는 El Granada로, 모델의 두 번째 추측이 정확했음
- EXIF 메타데이터를 사용하지 않고도 위치를 유추하는 것을 확인함
- 사용자가 EXIF 정보를 제거한 스크린샷으로 실험한 결과, 여전히 정확한 추론이 가능했음
- 다른 모델인 Claude 3.5/3.7 Sonnet 역시 좋은 성능을 보였으나, o3처럼 확대 기능은 지원하지 않음
-
Gemini 모델은 위치 정보를 부정확하게 사용하거나 잘못 추측하는 경우가 있었음
도구 연동 사고 체계와 그 의미
- o3는 "사고하는 중"에 필요한 도구를 직접 사용하는 새로운 Tool-augmented Chain-of-Thought 방식을 채택함
- 사진 분석뿐 아니라 검색 등 다양한 작업에서도 이 패턴이 강력한 성능을 발휘함
- 앞으로 다른 AI 모델에서도 비슷한 방식이 확산될 것으로 예상됨
기술의 재미와 위험성
- 모델의 추론 과정을 지켜보는 것은 매우 재미있고 몰입감 있는 경험을 제공함
- 동시에, 사진을 통한 위치 추적 가능성이 일반화되었음을 알리는 경각심도 중요함
- 누구든지 일상 사진만으로 개인 위치를 추적할 수 있어, 프라이버시와 안전 문제에 대한 인식이 필요함
o3 모델의 위치 접근성에 대한 추가 정보
- o3는 사용자 대략적인 위치 정보를 참조할 수 있지만, 이는 정확한 위치 추론의 주요 요소는 아님
- EXIF 메타데이터가 없는 상태에서도 수천 마일 떨어진 지역의 사진을 꽤 정확히 분석했음
- 다른 사용자들도 다양한 장소에서 실험한 결과, o3의 분석 능력을 재확인함