대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)

2 hours ago 1

들어가며

콘텐츠 모더레이션은 사용자가 생성하거나 업로드하는 텍스트, 이미지, 영상, 음성 등의 콘텐츠 중 서비스 정책 및 법적 기준에 위배되는 내용을 탐지해 적절한 조치를 수행하기 위한 기술적 운영 체계를 의미합니다. 단순히 부적절한 콘텐츠를 차단하는 기능을 넘어, 사용자를 보호하고 서비스의 신뢰를 유지하기 위한 핵심 인프라라고 할 수 있습니다.

플랫폼 규모가 커지면서 사용자가 생성하는 콘텐츠의 양이 폭발적으로 증가했고, 그에 따라 유해 콘텐츠가 생성되고 확산되는 속도 또한 과거와 비교할 수 없을 만큼 빨라졌습니다. 특히 이미지나 영상과 같은 시각 콘텐츠는 다른 유형의 콘텐츠보다 직관적이고 파급력이 크기 때문에 짧은 시간에 광범위하게 확산될 수 있어서 한 번의 노출이 서비스 전반에 미치는 영향이 점점 커지고 있습니다.

이러한 환경에서는 단순히 사후 신고에 기반해 대응하는 것만으로는 충분하지 않습니다. 신고 접수 후 이를 검토하는 사이 유해 콘텐츠가 다수의 사용자에게 노출될 수 있으며, 이는 사용자에게 부정적 경험을 전달해 결국 서비스 신뢰도 하락으로 이어질 수 있기 때문입니다. 따라서 보다 선제적이고 자동화된 대응 체계가 필요했고, ‘머신러닝 기반의 자동화된 콘텐츠 탐지 시스템’이 대규모 플랫폼의 핵심 인프라로 자리 잡게 되었습니다.

이미지 콘텐츠 모더레이션은 머신러닝 기반의 자동화된 콘텐츠 탐지 시스템 중에서도 기술적으로 까다로운 영역에 속합니다. 이미지에는 텍스트와 달리 명시적인 구조가 존재하지 않으며, 맥락에 따라 유해 여부가 달라지기도 합니다. 또한 해상도, 촬영 각도, 편집 방식 등 다양한 변수가 존재하기 때문에 일관된 판단을 내리는 모델을 설계하는 것은 쉽지 않은 과제입니다. 여기에 더해, 하루에도 수백만 건 이상 유입되는 이미지를 처리해야 하는 대규모 서비스 환경에서는 높은 탐지 성능뿐 아니라 안정성과 처리 및 비용 효율까지 동시에 고려해야 합니다.

이 글에서는 대규모 환경에서 이미지 콘텐츠 모더레이션 시스템을 구축하는 과정을 공유하겠습니다. 모델링과 구조 설계, 성능 개선을 위한 최적화 과정을 중심으로 구축 과정에서 했던 고민과 해결 방법을 소개하려고 합니다.

콘텐츠 모더레이션 기술의 진화

초기의 콘텐츠 모더레이션은 주로 규칙 기반 필터링과 키워드 차단 방식에 의존했습니다. 특정 금지어를 탐지하거나 사전에 정의한 패턴을 차단하는 방식이 중심이었으며, 비교적 단순한 구조로 운영됐습니다.

이후 머신러닝 기반 분류 모델이 도입되면서 대량 데이터 처리와 패턴 인식이 가능해졌고, 이를 이용해 유해 콘텐츠를 보다 정교하게 탐지할 수 있게 되었습니다. 명시적으로 정의하기 어려운 표현이나 변형된 형태의 콘텐츠도 데이터 기반으로 학습하여 대응할 수 있게 되었습니다.

현재는 다음과 같은 기술들이 결합된 형태로 발전하고 있습니다.

  • 딥러닝 기반 텍스트 및 이미지 분류 모델
  • 멀티모달 모델을 통한 이미지와 텍스트 통합 이해
  • LLM(large language model)을 활용한 맥락 기반 판별
  • 유연하게 운영할 수 있도록 모델의 예측 결과와 실제 차단 정책을 분리한 구조

이처럼 콘텐츠 모더레이션은 단순한 필터링 시스템을 넘어 대규모 데이터를 기반으로 복합적인 판단을 수행하는 AI 기반 의사 결정 시스템으로 진화하고 있습니다. 하지만 이와 같이 기술이 발전했음에도 이미지 콘텐츠 모더레이션은 여전히 가장 까다로운 영역 중 하나로 남아 있습니다.

기술이 진화해도 여전히 까다로운 이미지 콘텐츠 모더레이션

이미지 데이터는 본질적으로 비정형적이며, 텍스트와 같은 명확한 문법 구조가 존재하지 않습니다. 이런 특성을 고려할 때 대규모 플랫폼에서 이미지 콘텐츠 모더레이션이 어려운 이유를 살펴보면 다음과 같습니다.

대규모 플랫폼에서 이미지 콘텐츠 모더레이션이 어려운 이유 AI 생성 이미지
  1. 시각적 복잡성(visual complexity): 이미지는 배경, 객체, 인물, 색상, 구도 등 다양한 요소가 동시에 작용합니다. 동일한 객체라도 상황과 맥락에 따라 의미가 달라질 수 있으며, 단순한 객체 인식만으로 유해 여부를 판단하기는 어렵습니다.
  2. 맥락 의존성(context dependency): 이미지 단독으로는 유해 여부를 판단하기 어려운 경우가 많습니다. 특정 상징이나 제스처는 문화권에 따라 해석이 달라질 수 있으며, 이미지 내부의 텍스트와 결합될 때 비로소 유해성이 발생하기도 합니다. 즉, 시각 정보와 의미 해석이 함께 이루어져야 합니다.
  3. 변형 및 우회 시도(variation & evasion attempts): 밈 형태의 이미지나 합성 이미지, 일부를 가린 이미지 등은 기존 탐지 방식을 우회하기 위해 지속적으로 변형됩니다. 최근에는 생성형 AI 기술이 발전하면서 더욱 정교하게 변형되고 있기 때문에 탐지 난이도 또한 높아지고 있습니다.
  4. 대규모 처리 요구(large-scale processing requirements): 대형 플랫폼에서는 하루에도 수백만 건에서 수천만 건 이상의 이미지가 업로드됩니다. 따라서 높은 탐지 정확도뿐 아니라 낮은 지연 시간과 비용 효율까지 동시에 충족해야 합니다. 단순히 잘 맞추는 모델을 만드는 것만으로는 충분하지 않으며, 대규모 환경에서 안정적으로 작동할 수 있어야 합니다.

결국 이미지 콘텐츠 모더레이션은 이미지의 의미를 정교하게 이해하는 능력에 대규모 데이터를 효율적으로 처리하는 능력까지 동시에 필요한 문제이며, 기술 진화의 최전선에 위치한 영역이라고 할 수 있습니다.

LY Corporation의 이미지 콘텐츠 모더레이션

LY Corporation에서는 사용자를 보호하기 위해 대규모 트래픽을 처리할 수 있는 LY 모니터링 플랫폼을 운영하고 있습니다. 이 플랫폼 내에 다양한 유형의 정책 위반 콘텐츠를 탐지하는 기술을 통합해 제공하고 있습니다. 저희가 속한 팀에서 개발한 AI 기반 이미지 콘텐츠 모더레이션 API 역시 LY 모니터링 플랫폼의 구성 요소로 설계됐습니다.

LY 모니터링 플랫폼 작동 흐름 AI 생성 이미지

이 API는 매일 방대한 양의 이미지가 유입되는 환경을 전제로 설계했으며, 높은 탐지 성능과 처리 효율을 동시에 고려해 개발했습니다. 또한 성인 이미지, 폭력적이거나 잔인한 장면을 포함한 이미지, 이용자에게 불쾌감을 줄 수 있는 이미지와 같은 전형적인 유해 콘텐츠뿐 아니라, 개인 정보가 포함된 신분증 이미지나 SNS 화면 캡쳐와 같이 정책적으로 관리해야 하는 이미지 유형까지 폭넓게 탐지할 수 있도록 개발했습니다. 이를 통해 대규모 환경에서도 각 서비스의 정책 기준에 맞춰 일관적으로 판단하고 대응할 수 있도록 지원하고 있습니다.

이미지 콘텐츠 모더레이션 API를 개발하며 마주한 핵심 기술 과제와 해결 전략

이처럼 다양한 정책 요구 사항과 대규모 처리 환경을 동시에 만족해야 하는 이미지 콘텐츠 모더레이션 API를 개발하는 과정에서 저희는 여러 문제에 직면했습니다. 이 글에서는 그중 가장 우선순위가 높았던 세 가지 문제를 소개하고 각 문제를 해결하기 위해 저희가 접근한 방식을 하나씩 자세히 살펴보겠습니다.

  1. 높은 정확도와 빠른 처리 속도를 동시에 달성해야 하는 문제
  2. 복잡한 맥락을 이해할 수 있는 모델 구조 설계
  3. 빠르게 변화하는 정책에 유연하게 대응하는 구조를 마련해야 하는 문제

1. 높은 정확도와 빠른 처리 속도를 동시에 확보하는 방법

대규모 서비스 환경에서는 하루에도 수백만, 수천만 장의 이미지가 유입됩니다. 이 모든 이미지를 고성능 LLM으로 처리한다면 이론적으로는 높은 성능을 기대할 수 있겠지만, 실제 운영 환경에서는 비용과 추론 지연 측면에서 현실적인 제약이 존재합니다. 특히 트래픽이 지속적으로 증가하는 상황에서는 모델의 정확도뿐 아니라 단위 요청당 비용 또한 설계의 핵심 요소가 됩니다.

저희는 비용과 추론 지연 측면의 현실적인 제약을 고려하면서 정확도와 처리 속도를 동시에 개선하기 위해 다음과 같은 순서로 세 가지 방향으로 최적화를 진행했습니다.

정확도와 처리 속도를 동시에 개선하기 위한 세 가지 최적화 방안 AI 생성 이미지
  1. 전통적인 ML 모델 최적화
  2. 전통적인 ML 모델 + 멀티모달 LLM 하이브리드 구조 도입
  3. vLLM(virtual large language model) 프레임워크 기반 멀티모달 LLM 성능 최적화

순서대로 하나씩 자세히 살펴보겠습니다.

1) 전통적인 ML 모델 최적화

전통적인 ML 모델은 입력 이미지를 기반으로 분류 판단을 수행하는, 고전적인 방식으로 작동하는 모델입니다. 현실적인 서비스 제약(지연 시간, 비용, 처리량 등)을 고려해 높은 정확도와 빠른 추론 속도를 갖춘 PyTorch 기반의 적절한 사전 학습 모델을 우선 선정했습니다.

이후 PyTorch 기반 모델을 ONNX 형식으로 변환하고 FP16 정밀도로 최적화해 추론 효율을 추가 개선했습니다. ONNX 런타임을 활용해 실행 환경에서의 최적화 이점을 확보했으며, FP16을 적용해 메모리 사용량을 줄이고 추론 속도를 높였습니다. 그 결과 아래와 같이 최대 4.3배까지 처리량이 늘어난 것을 확인했습니다.

모델 형식정밀도지연 시간(ms)처리량(img/sec)개선 결과
PyTorchFP3219.851N/A
ONNXFP328.91122.2배
ONNXFP164.62174.3배

2) 전통적인 ML 모델 + 멀티모달 LLM 하이브리드 구조 도입

정확도를 높이면서 비용을 절감하기 위해 전통적인 ML 모델과 멀티모달 LLM을 결합한 하이브리드 구조를 도입했습니다. 이 구조에서는 다음 그림과 같이 전통적인 이미지 분류 모델이 1차 필터 역할을 수행하며 유해 이미지인지 아닌지 명확하게 판단할 수 있는 케이스를 신속하게 처리하고, 전통적인 ML 모델이 판단하기에 모호하거나 보다 정교하게 이미지를 이해할 필요가 있는 경우에만 2차 필터로 멀티모달 LLM을 호출하도록 설계했습니다.

전통적인 ML 모델 + 멀티모달 LLM 하이브리드 구조 AI 생성 이미지

실제 서비스 환경에서 데이터 분포를 분석한 결과, 전체 데이터의 90% 이상이 전통적인 ML 모델만으로도 충분히 유해 여부를 판단할 수 있는 비교적 명확한 유해하지 않은 데이터에 해당하는 것으로 나타났습니다. 만약 이런 데이터의 특성을 고려하지 않고 모든 데이터를 멀티모달 LLM으로 처리하면 심각하게 많은 자원을 낭비했을 것입니다. 멀티모달 LLM의 처리량은 전통적인 ML 모델 대비 100배 이상 낮기 때문에 동일한 트래픽을 처리할 때 훨씬 더 많은 GPU 자원을 사용해 비용이 크게 증가합니다.

따라서 하이브리드 구조는 불필요한 LLM 호출을 최소화하면서도 정교한 판단이 필요한 데이터는 고정밀 분석을 수행해서 성능과 비용 간 균형을 효과적으로 달성하는 전략이라고 할 수 있습니다.

3) vLLM 프레임워크 기반 멀티모달 LLM 성능 최적화

vLLM 프레임워크는 LLM 서빙에 널리 사용되는 오픈소스 프레임워크로, KV(key-value) 캐싱과 지속적 배치(continuous batching) 등의 핵심 기능을 통해 GPU 자원을 효율적으로 활용할 수 있도록 지원합니다. 또한 다양한 성능 최적화 옵션을 제공하기 때문에 서비스 사용 패턴이 비교적 명확한 경우 이에 맞춰 최적화할 수 있습니다.

이미지 콘텐츠 모더레이션 용도로 활용하는 멀티모달 LLM은 이미지는 매 요청마다 새로 입력되지만 텍스트 프롬프트는 몇 가지 고정된 패턴이 반복해서 사용된다는 특징이 있습니다. 또한 입력 및 출력의 전체 최대 길이를 어느 정도 예측할 수 있으며, 일반적으로 입력이 출력보다 상대적으로 길다는 특성이 있습니다. 이를 고려할 때, vLLM의 다양한 최적화 옵션을 활용하면 자원 사용 효율과 처리 성능을 더욱 개선할 수 있습니다. 어떤 옵션이 있는지 저희가 실제로 최적화를 위해 적용했던 주요 최적화 옵션을 중심으로 살펴보겠습니다.

  • enable_prefix_caching: 이 옵션을 활성화하면, 이전에 처리된 프롬프트와 일부 프리픽스가 동일한 경우 해당 구간의 KV 캐시 블록을 재사용할 수 있습니다. 그 결과 이미 계산된 프리픽스 구간의 연산을 반복하지 않아도 돼 프리필(prefill) 연산을 크게 절감할 수 있습니다. 특히 실제 서비스 환경처럼 시스템 프롬프트나 템플릿을 반복적으로 사용하는 구조에서는 캐시 적중률이 높아지므로 지연 시간 감소와 GPU 자원 절감 효과를 동시에 기대할 수 있습니다.
  • max_model_len: 이 값은 하나의 요청에서 처리할 전체 문맥(입력 + 출력)의 최대 토큰 길이 상한을 설정하는 옵션입니다. 상한을 과도하게 크게 설정하면 vLLM이 해당 길이를 기준으로 KV 캐시를 확보하기 때문에 GPU 메모리 사용량이 불필요하게 증가할 수 있습니다. 합리적인 수준으로 잘 제한하면 KV 캐시 과할당을 방지해 메모리 효율을 높일 수 있습니다. 따라서 입력 및 출력 길이를 어느 정도 예측할 수 있는 시나리오라면 이 값을 실제 필요 범위에 맞게 조정합니다.
  • max_num_seqs: 동시에 처리할 수 있는 최대 요청 수의 상한을 의미합니다. 이 값은 vLLM이 한 번에 스케줄링하여 GPU에서 병렬로 처리할 수 있는 요청의 개수를 제한하는 역할을 합니다. 값을 크게 설정하면 더 많은 요청을 동시에 처리할 수 있어 전체 처리량(TPS)을 높이는 데 유리하지만, 각 요청이 사용하는 KV 캐시와 연산 자원이 분산되면서 개별 요청의 지연 시간이 증가할 수 있습니다. 반대로 값을 작게 설정하면 동시 처리 수는 줄어들지만 요청 간 간섭이 줄어들어 지연 시간이 안정적으로 유지됩니다. 따라서 서비스 특성에 따라 처리량 중심인지, 지연 시간 안정성 중심인지에 맞춰 적절한 수준으로 조정하는 것이 중요합니다.
  • max_num_batched_tokens: 한 단계에서 처리 가능한 총 토큰 수(배치 토큰 예산)의 상한을 의미합니다. 작게 설정하면 프리필보다 디코딩 중심의 워크로드에서 지연 시간 개선에 유리하며, 값을 크게 설정하면 더 많은 프리필 요청을 동시에 처리할 수 있어 전체 처리량을 늘릴 수 있습니다. 이미지 콘텐츠 모더레이션 용도에 맞춰 prefill 중심이 되도록, max_num_batched_tokens 값을 크게 세팅한다면 GPU를 좀 더 효율적으로 사용할 수 있습니다.

vLLM은 활발히 업데이트되고 있는 오픈소스 프레임워크입니다. 비동기 스케줄링이나 CUDA 그래프 최적화, 양자화 지원 확대 등 연산 효율을 높이기 위한 기능이 지속적으로 추가되며 고도화되고 있습니다. 따라서 정기적으로 업데이트해 가급적 최신 버전을 유지하며 성능 개선 사항을 반영하는 것을 권장합니다.

2. 복잡하고 다양한 특성을 지닌 대규모 데이터를 정밀하게 처리하는 방법

기존의 단일 비전 기반 엔드 투 엔드 모델은 명확한 시각 패턴이 존재하는 유해 콘텐츠 탐지에는 효과적이었습니다. 그러나 정책 판단 기준이 단순 객체 존재 여부를 넘어 ‘행위’와 ‘의도’ 수준으로 확장되면서 한계가 드러났습니다.

예를 들어 흡연 장면 탐지는 비교적 명확한 시각 패턴의 문제이지만, 담배 판매 행위를 탐지하는 것은 단순히 객체를 인식하는 것만으로는 충분하지 않습니다. 가격 표기나 판매 문구, 연락처 노출, 구매 유도 표현 등 다양한 단서를 복합적으로 결합해야만 정책 위반 여부를 판단할 수 있기 때문입니다.

기존에는 이와 같은 복합 판단을 하나의 모델이 이미지를 입력 받아 최종 정책 레벨까지 직접 예측하도록 구조를 설계했습니다. 초기에는 효과적인 구조처럼 보였으나, 실제 운영 환경에서는 다음과 같은 한계가 나타났습니다.

  • 정책 조합의 결과를 직접 학습하는 문제: 국가별 규제와 서비스별 기준, 세부 예외 사항까지 하나의 출력 공간에 모두 반영하려다 보니 클래스 구조가 과도하게 복잡해졌습니다. 그 결과 모델은 콘텐츠의 속성을 학습하기보다는 정책 조합의 결과를 직접 학습하는 구조가 됐고, 이 때문에 확장성과 유지보수성이 점차 저하됐습니다.
  • 텍스트 정보 활용의 제약: 이미지 내 텍스트나 그 맥락은 정책 판단에 중요한 단서이지만 단일 비전 모델 구조에서는 이러한 텍스트 정보를 체계적으로 통합하기 어려웠습니다.

이러한 한계를 해결하기 위해 시스템을 아래와 같이 복합적인 판별 구조(hybrid decision model)로 재설계했습니다.

복합적인 판별 구조(hybrid decision model) AI 생성 이미지

이 구조에서는 이미지 내 텍스트 정보를 활용할 수 있는 경우 OCR API를 이용해 이미지 내 텍스트를 추출한 뒤 이를 이용해 정책 위반 ‘행위’나 ‘의도’를 판별합니다. 또한 이러한 정황 단서를 시각 정보와 결합해서 멀티모달 LLM을 활용해 객체 수준을 넘어 맥락과 의도를 함께 고려해 분석할 수 있도록 기능을 확장했습니다.

이 구조 전환의 핵심은 ‘모든 정책을 하나의 모델이 직접 학습하는 구조’에서 벗어나 ‘정보를 시각과 텍스트로 분리하고 멀티모달 LLM으로 확장해 추론하는 구조’로 전환하는 것입니다. 이와 같은 복합 판별 구조를 적용한 결과 아래와 같이 기존 단일 비전 모델(baseline) 대비 다양한 클래스에서 정밀도가 유의미하게 개선됐습니다(클래스 이름은 임의의 이름으로 변경).

클래스클래스1클래스2클래스3클래스4클래스5클래스6클래스7
개선 결과+16%p+11%p+7%p+1%p+4%p+7%p+6%p

이를 통해 단순 객체 탐지를 넘어 정책 수준의 행위 판단까지 탐지 범위를 확장할 수 있었으며, 복잡하고 다양한 특성을 지닌 대규모 데이터를 보다 정밀하게 처리할 수 있게 되었습니다.

3. 빠르게 변화하는 환경에서 개발 속도를 높이는 방법

콘텐츠 모더레이션은 정책 변화나 사회 이슈, 국가별 규제 환경 차이에 따라 요구 사항이 빠르게 변화하는 영역입니다. 따라서 단순히 모델 성능을 개선하는 것만으로는 충분하지 않습니다. 변화에 신속하게 대응할 수 있는 구조가 필요합니다.

이와 같은 구조로 설계하기 위해 모델의 판단 결과와 정책 적용 로직을 분리하고 모듈화해서 정책 변경이 모델 수정으로 직접 이어지는 것을 최소화하도록 설계했습니다. 또한 모델을 수정해야 할 때에는 재학습 없이 대응할 수 있는 비학습 기반 방식을 적극 활용했으며, 불가피하게 학습해야 하는 경우에도 기존에 검증한 로직에 영향을 주지 않도록 구조를 구성했습니다.

그 결과 정책 변화에 대응하는 속도와 전반적인 개발 생산성을 모두 향상시킬 수 있었습니다. 각 설계 포인트를 하나씩 살펴보겠습니다.

1) 모델의 판단 결과와 콘텐츠 모더레이션 정책 로직을 분리

모델의 판단 결과와 콘텐츠 모더레이션 정책 로직을 분리해 직접 연결되지 않도록 만들면 복잡하고 다양한 특성을 지닌 대규모 데이터를 정밀하게 처리하는 데 도움을 줄 뿐 아니라 개발 생산성 향상에도 도움을 줍니다.

사례와 함께 살펴보겠습니다. 모델은 콘텐츠의 속성값을 추정하는 역할을 수행합니다. 예를 들어 다음과 같은 속성값을 추정합니다.

  • sexy_score, violence_score, tobacco_presence_score, commercial_intent_score, id_card_presence_score 등

속성값을 추정한 이후에는 정책 로직이 이 값을 이용해 콘텐츠 차단 여부나 경고 노출, 연령 제한 적용 등을 결정합니다. 정책 로직에는 국가별 규제 기준, 서비스별 운영 철학, 사용자 연령대나 위험 등급에 따른 단계적 조치 전략 등을 다양한 서비스의 상황에 맞게 설정합니다. 예를 들어 tobacco_presence_score가 0.8로 예측된 동일한 콘텐츠라도 국가나 서비스에 따라 다음과 같이 서로 다른 정책을 적용할 수 있습니다.

  • A 국가의 청소년 중심 서비스에서는 즉시 차단
  • B 국가의 성인 대상 커뮤니티에서는 허용
  • C 서비스에서는 광고 목적일 경우에만 제한

이와 같이 모델의 판단 결과와 정책 로직을 분리하면 정책 변화나 사회 이슈, 국가별 규제 환경 차이에 따른 요구 사항을 모델 변경 없이 정책 로직에서 빠르게 대응할 수 있어 추가 개발을 최소화할 수 있습니다.

2) 모델 업데이트에 효율적으로 대응하기 위한 개발 생산성 중심의 구조 채택

최근 정책 로직을 업데이트하는 것만으로는 대응하기 어려운 새로운 유형의 유해 콘텐츠가 지속적으로 등장하고 있습니다. 이러한 경우에는 모델 자체를 수정하는 것이 불가피합니다. 따라서 반복적인 정책 변화에 효율적으로 대응하기 위해서는 모델 구조가 본질적으로 확장하기 쉽고 유연해야 합니다. 이에 따라 저희는 빠른 수정, 낮은 수정 비용, 짧은 개발 주기가 가능한 구조를 만들기 위한 두 가지 전략을 수립해 적용했습니다.

첫째, 강력한 사전 학습 비전 인코더를 공통 백본으로 선택하고 여기에 선형 분류기를 얹는 구조를 채택했습니다. 이 방식은 표현 학습과 분류 계층을 분리해 변화 대응 비용을 크게 낮춥니다. 기존 클래스 정의가 변경되는 경우에는 백본 전체를 재학습하지 않고 상위 분류기만 재학습해 빠르게 성능을 개선할 수 있으며, 신규 클래스가 추가되는 경우에도 기존 피처 공간(feature space)를 활용해 분류 헤드를 확장함으로써 이미 검증된 기존 분류 성능에 미치는 영향을 최소화할 수 있다는 장점이 있습니다. 또한 데이터가 충분하지 않은 상황에서도 비교적 안정적인 성능을 확보할 수 있어, 정책 변경에 따른 반복적인 수정 요청에 낮은 비용과 짧은 개발 주기로 대응할 수 있는 기반이 됩니다.

둘째, 신규 유형의 유해 콘텐츠를 추가 학습 없이 프롬프트 조정만으로 대응할 수 있는 구조를 도입해 개발 효율을 크게 높였습니다. 이 구조는 텍스트-이미지가 잘 정렬된 CLIP 기반 모델과 멀티모달 LLM을 함께 활용하고 있습니다.

CLIP 기반 모델은 클래스 설명 문장을 프롬프트로 직접 입력하는 제로샷(zero-shot) 방식으로 새로운 개념을 정의할 수 있습니다. 별도로 데이터를 수집하거나 대규모로 재학습하지 않아도 신규 클래스를 신속하게 추가하거나 변경할 수 있고, 전통적인 ML 모델 단계에서 선형 분류기와 백본을 공유하며 같이 실행할 수 있습니다.

또한 멀티모달 LLM은 사전학습된 광범위한 지식과 추론 능력을 바탕으로, 기존 분류 모델의 예측 결과를 보완하거나 재판단하는 역할을 수행합니다. 이 과정에서도 모델 구조를 수정하거나 재학습을 진행하기보다는 프롬프트 설계와 판단 기준 조정만으로 모델의 출력을 의도한 대로 업데이트할 수 있습니다.

결과적으로 CLIP 기반 제로샷 분류기와 멀티모달 LLM을 결합한 구조는 데이터 확보와 재학습에 덜 의존하게 만들고, 정책 변경이나 신규 유형 등장 시 프롬프트 수정만으로도 빠르게 대응할 수 있는 개발 체계를 만들 수 있게 만듭니다. 이는 정책 변화가 반복되는 환경에서 비용과 시간을 절감하고 유연성을 확보할 수 있는 핵심 기반이 됩니다.

마치며

LLM의 성능과 추론 효율은 빠르게 개선되고 있으며, 멀티모달 모델 또한 이미지와 텍스트를 통합적으로 이해하는 방향으로 고도화되고 있습니다. 이러한 흐름 속에서 현재의 전통적인 ML 모델과 LLM을 결합한 하이브리드 구조 역시 점진적으로 변화할 가능성이 큽니다. LLM의 활용 범위가 확대되거나 더 깊이 통합되는 구조로 진화하는 시도가 이어질 것입니다.

그러나 이미지 콘텐츠 모더레이션의 본질적인 어려움은 여전히 남아 있습니다. 시각적 복잡성과 맥락 의존성, 지속적인 변형과 우회 시도는 모델 구조가 어떻게 발전하더라도 반드시 고려해야 할 요소입니다. 따라서 결국 중요한 것은 모델의 규모나 종류 자체보다 이런 특성을 어떻게 구조적으로 풀어내느냐에 있습니다.

또한 콘텐츠 모더레이션의 범위는 점차 확장되고 있습니다. 이제는 사용자가 업로드한 콘텐츠를 탐지하는 영역을 넘어 LLM의 입력과 출력에 적용하는 가드레일 설계까지 포함하는 방향으로 발전하고 있습니다. 이는 콘텐츠 모더레이션이 단순한 분류 시스템을 넘어, AI 시스템 전반의 안전과 신뢰를 다루는 영역으로 확장되고 있음을 의미합니다.

저희 팀은 이미지 콘텐츠 모더레이션 시스템을 개발하는 과정에서 여러 가지 기술을 시도해 보며 축적한 설계 경험을 바탕으로 앞으로 더욱 정교하고 유연한 시스템을 구축해 나갈 예정입니다. 이를 통해 사용자에게 더욱 안전하고 신뢰할 수 있는 서비스 환경을 제공하고자 합니다.

Read Entire Article