로컬 LLM을 활용한 이미지의 alt-text 생성하기 비교

1 day ago 1

  • 블로그에 저장된 10,000장의 사진 중 약 9,000장에 alt-text가 없는 상태였음
  • 이를 위해 12개의 LLM(대형 언어 모델)을 테스트했으며, 이 중 10개는 로컬에서 실행, 2개는 클라우드 기반 모델(GPT-4, Claude 3.5 Sonnet)
  • alt-text 작성은 시각장애인을 위한 접근성을 높이는 중요한 작업이지만, 수작업으로 작성하기에는 부담이 큼
  • AI 모델이 alt-text를 생성하는 정확도를 테스트하고, 로컬 모델이 실용적인 대안이 될 수 있는지 확인하는 것이 목표

테스트한 AI 모델

  • 로컬 모델 (10개)
    • 9개 모델은 MacBook Pro(32GB RAM)에서 실행
    • 1개 모델은 친구의 고사양 장비에서 실행
  • 클라우드 모델 (2개)
    • GPT-4o(OpenAI)
    • Claude 3.5 Sonnet(Anthropic)

주요 성능 비교

  • 클라우드 모델(GPT-4o, Claude 3.5 Sonnet)

    • 가장 정확한 alt-텍스트를 생성함
    • 세부 묘사가 뛰어나며, 이미지의 분위기까지 잘 포착함
    • 평가 등급: A
  • 로컬 모델 중 우수한 성능을 보인 모델

    • Llama 3.2 Vision 11B
      • 정확한 객체 인식 및 문맥 이해력 우수
      • 평가 등급: B
    • Llama 3.2 Vision 90B
      • 11B 모델보다 약간 더 높은 정확도를 보였으나, 실행을 위해 더 많은 RAM이 필요
      • 평가 등급: B
    • MiniCPM-V
      • 비교적 가벼운 모델임에도 불구하고 강력한 성능을 보임
      • 평가 등급: B
  • 낮은 성능을 보인 모델

    • VIT-GPT2, GIT, BLIP 등 초기 모델들은 객체 인식이 부정확하고, 반복적인 문구를 생성하는 경향이 있음
    • 평가 등급: D~F

AI 모델의 이미지 분석 방식

  • 비전 인코딩 (Vision Encoding)
    • 이미지를 작은 패치로 분할한 후, 이를 수치 데이터(임베딩)로 변환
    • 주목할 부분(예: 주요 객체)을 필터링하고, 덜 중요한 요소(예: 단순 배경)를 제거
  • 언어 인코딩 (Language Encoding)
    • 비전 인코더가 제공한 정보를 기반으로 자연어 텍스트를 생성
    • 이미지 설명을 작성하거나 질문에 답하는 방식으로 텍스트 생성

테스트 이미지 및 결과

  • 시부야 교차로 (도쿄)

    • GPT-4o, Claude: "네온사인과 인파로 가득한 시부야 교차로" → A등급
    • LLaVA 13B: "시부야 교차로에서 사람들이 건너는 장면" → A등급
    • Llama 3.2 Vision 11B: "도쿄의 번화한 야경, 광고판과 인파" → C등급
    • VIT-GPT2: "고층 빌딩과 신호등이 있는 도시 야경" → F등급 (부정확)
  • 이사벨라 스튜어트 가드너 박물관 (보스턴)

    • Claude: "빅토리아풍 방, 샹들리에, 금박 액자" → B등급
    • Llama 3.2 Vision 11B: "금박 액자와 장식적인 배경" → A등급
    • BLIP-2 OPT: "벽에 걸린 그림과 액자가 있는 방" → C등급
    • VIT-GPT2: "거울 앞에 촛불과 꽃병이 놓인 거실" → F등급 (부정확)
  • 웨이크보딩 (미국 버몬트)

    • GPT-4o: "배 위의 두 명이 웨이크보더를 지켜보는 장면" → A등급
    • Llama 3.2 Vision 90B: "배 위에서 웨이크보딩을 보는 두 사람" → A등급
    • BLIP-2 FLAN: "배 위에서 누군가가 서핑을 보고 있음" → C등급
    • VIT-GPT2: "서핑보드를 든 두 사람이 보트 위에 서 있음" → E등급 (부정확)

평가 결과

  • 클라우드 모델 (GPT-4o, Claude 3.5 Sonnet): A등급
    • 가장 정확한 설명을 제공, 분위기까지 포착
  • 로컬 모델 중 상위권 (Llama 11B, Llama 90B, MiniCPM-V): B등급
    • 정확도는 클라우드 모델에 비해 다소 부족하지만 실용 가능
  • 초기 모델 (VIT-GPT2, GIT, BLIP 등): D~F등급
    • 반복적인 표현, 환각(hallucination) 발생

향후 고려 사항

alt-텍스트가 완벽하지 않다면, 없는 것보다 나을까?

  • B등급 수준의 alt-텍스트라도 없는 것보다는 나을 가능성이 있음
  • 다만, 부정확한 정보(예: 없는 객체 추가)는 시각장애인 사용자에게 혼란을 줄 수 있음

다음 단계 옵션

  • AI 출력을 결합하기
    • 여러 모델을 조합하여 가장 정확한 설명을 생성
  • 업그레이드를 기다리기
    • 현재 최선의 로컬 모델을 사용하고, 6~12개월 후 새로운 모델로 업데이트
  • 클라우드 모델 사용
    • 정확도를 위해 클라우드 기반 모델 사용, 그러나 비용과 데이터 프라이버시가 문제
  • 하이브리드 접근
    • AI 생성 alt-텍스트를 사람이 검토하여 보완 (9,000장에 적용하기에는 현실적으로 어려움)
  • 현재 가장 합리적인 선택은 로컬 모델을 사용하면서, 향후 더 발전된 모델로 업데이트하는 방식일 듯

Read Entire Article