- 블로그에 저장된 10,000장의 사진 중 약 9,000장에 alt-text가 없는 상태였음
- 이를 위해 12개의 LLM(대형 언어 모델)을 테스트했으며, 이 중 10개는 로컬에서 실행, 2개는 클라우드 기반 모델(GPT-4, Claude 3.5 Sonnet)
-
alt-text 작성은 시각장애인을 위한 접근성을 높이는 중요한 작업이지만, 수작업으로 작성하기에는 부담이 큼
- AI 모델이 alt-text를 생성하는 정확도를 테스트하고, 로컬 모델이 실용적인 대안이 될 수 있는지 확인하는 것이 목표
테스트한 AI 모델
-
로컬 모델 (10개)
- 9개 모델은 MacBook Pro(32GB RAM)에서 실행
- 1개 모델은 친구의 고사양 장비에서 실행
-
클라우드 모델 (2개)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)
주요 성능 비교
AI 모델의 이미지 분석 방식
-
비전 인코딩 (Vision Encoding)
- 이미지를 작은 패치로 분할한 후, 이를 수치 데이터(임베딩)로 변환
- 주목할 부분(예: 주요 객체)을 필터링하고, 덜 중요한 요소(예: 단순 배경)를 제거
-
언어 인코딩 (Language Encoding)
- 비전 인코더가 제공한 정보를 기반으로 자연어 텍스트를 생성
- 이미지 설명을 작성하거나 질문에 답하는 방식으로 텍스트 생성
테스트 이미지 및 결과
-
시부야 교차로 (도쿄)
- GPT-4o, Claude: "네온사인과 인파로 가득한 시부야 교차로" → A등급
- LLaVA 13B: "시부야 교차로에서 사람들이 건너는 장면" → A등급
- Llama 3.2 Vision 11B: "도쿄의 번화한 야경, 광고판과 인파" → C등급
- VIT-GPT2: "고층 빌딩과 신호등이 있는 도시 야경" → F등급 (부정확)
-
이사벨라 스튜어트 가드너 박물관 (보스턴)
- Claude: "빅토리아풍 방, 샹들리에, 금박 액자" → B등급
- Llama 3.2 Vision 11B: "금박 액자와 장식적인 배경" → A등급
- BLIP-2 OPT: "벽에 걸린 그림과 액자가 있는 방" → C등급
- VIT-GPT2: "거울 앞에 촛불과 꽃병이 놓인 거실" → F등급 (부정확)
-
웨이크보딩 (미국 버몬트)
- GPT-4o: "배 위의 두 명이 웨이크보더를 지켜보는 장면" → A등급
- Llama 3.2 Vision 90B: "배 위에서 웨이크보딩을 보는 두 사람" → A등급
- BLIP-2 FLAN: "배 위에서 누군가가 서핑을 보고 있음" → C등급
- VIT-GPT2: "서핑보드를 든 두 사람이 보트 위에 서 있음" → E등급 (부정확)
평가 결과
-
클라우드 모델 (GPT-4o, Claude 3.5 Sonnet): A등급
-
로컬 모델 중 상위권 (Llama 11B, Llama 90B, MiniCPM-V): B등급
- 정확도는 클라우드 모델에 비해 다소 부족하지만 실용 가능
-
초기 모델 (VIT-GPT2, GIT, BLIP 등): D~F등급
- 반복적인 표현, 환각(hallucination) 발생
향후 고려 사항
alt-텍스트가 완벽하지 않다면, 없는 것보다 나을까?
-
B등급 수준의 alt-텍스트라도 없는 것보다는 나을 가능성이 있음
- 다만, 부정확한 정보(예: 없는 객체 추가)는 시각장애인 사용자에게 혼란을 줄 수 있음
다음 단계 옵션
-
AI 출력을 결합하기
- 여러 모델을 조합하여 가장 정확한 설명을 생성
-
업그레이드를 기다리기
- 현재 최선의 로컬 모델을 사용하고, 6~12개월 후 새로운 모델로 업데이트
-
클라우드 모델 사용
- 정확도를 위해 클라우드 기반 모델 사용, 그러나 비용과 데이터 프라이버시가 문제
-
하이브리드 접근
- AI 생성 alt-텍스트를 사람이 검토하여 보완 (9,000장에 적용하기에는 현실적으로 어려움)
- 현재 가장 합리적인 선택은 로컬 모델을 사용하면서, 향후 더 발전된 모델로 업데이트하는 방식일 듯