알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점

10 hours ago 2
  • LLM이 이력서 생성과 평가 양쪽에 쓰이면서, 평가 모델이 자신이 만든 산출물을 더 높게 고르는 자기선호가 채용 선별의 새 편향으로 나타남
  • 연구는 생성형 AI 확산 전 수집된 인간 작성 이력서 2,245개를 바탕으로 GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 등 여러 LLM이 만든 반사실적 이력서를 비교 평가함
  • 대부분의 모델에서 LLM-vs-Human 자기선호가 강하게 나타났고, 주요 상용·오픈소스 모델의 인간 작성 이력서 대비 자기선호 편향은 67%~82% 범위였음
  • 24개 직업군 채용 파이프라인 시뮬레이션에서 평가 LLM과 같은 LLM을 쓴 지원자는 동등한 자격의 인간 작성 이력서 지원자보다 최종 후보에 오를 가능성이 약 23%~60% 높았음
  • 출처를 무시하고 내용에 집중하도록 하는 시스템 프롬프팅과 다수결 앙상블은 모든 테스트 대상 LLM에서 LLM-vs-Human 자기선호를 상대적으로 17%~63% 줄임

AI 자기선호가 채용 평가에 만드는 새 편향

  • 대규모 언어 모델(LLM)이 콘텐츠 생성과 평가 양쪽에 쓰이면서, 같은 모델이 만든 산출물을 더 높게 평가하는 자기선호(self-preference) 가 채용 같은 의사결정 과정의 새 편향으로 부상함
  • 채용에서는 지원자가 LLM으로 이력서를 작성·다듬고, 고용주는 유사한 도구로 이력서를 선별하거나 순위를 매기는 구조가 늘어나면서 AI-AI 상호작용이 실제 평가 결과에 영향을 줄 수 있음
  • 기존 공정성 논의가 주로 인구통계학적 속성의 차별에 초점을 맞춘 반면, 자기선호는 평가 모델과 생성 모델의 관계에서 내생적으로 생기는 편향이라는 점이 다름
  • 이런 편향은 동일한 역량의 지원자라도 평가에 쓰이는 LLM과 같은 모델을 사용한 지원자에게 유리하게 작동하고, 다른 도구를 쓰거나 AI를 쓰지 않은 지원자에게 불리하게 작동할 수 있음
  • 이력서 선별은 대규모 지원자 풀을 제한된 면접·평가 단계로 줄이는 초기 병목 단계라서, 상위 단계의 오판이 이후 후보군 구성과 채용 기회 배분에 지속적인 영향을 줄 수 있음

실험 설계와 측정 방식

  • 실험은 전문 이력서 작성 플랫폼에서 수집한 인간 작성 이력서 2,245개를 기반으로 하며, 생성형 AI가 널리 쓰이기 전의 자료를 사용함
  • 각 이력서에 대해 여러 최신 LLM으로 반사실적(counterfactual) 버전을 생성하고, 동일한 후보자의 자격·경력·배경 정보가 표현 방식만 달라지도록 설계함
  • 사용된 모델은 GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
  • 평가 LLM은 같은 후보자를 나타내는 두 이력서 중 더 강한 이력서를 고르는 쌍대 비교를 수행하며, 평가 대상 이력서의 출처만 달라짐
  • 자기선호는 두 형태로 구분됨
    • LLM-vs-Human 자기선호

      • 평가 LLM이 자신이 생성한 이력서를 인간이 작성한 동등한 이력서보다 선호하는 경향을 뜻함
    • LLM-vs-LLM 자기선호

      • 평가 LLM이 다른 LLM이 생성한 이력서보다 자신이 생성한 이력서를 선호하는 경향을 뜻함
      • 평가 LLM은 이 맥락에서 이진 분류기처럼 작동하며, 공정성 문헌의 통계적 동등성(statistical parity)기회 균등(equal opportunity) 기준을 사용해 편향을 측정함
      • 통계적 동등성 기반 자기선호 편향은 평가 LLM이 만든 이력서가 선택될 확률과, 인간 또는 다른 LLM이 만든 이력서가 선택될 확률의 차이로 정의됨
      • Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
      • 여기서 S = 1은 평가 LLM f가 생성한 이력서, S = 0은 인간 또는 다른 LLM이 생성한 이력서를 뜻함
      • Y'_f = 1은 평가 LLM f가 해당 이력서를 더 강한 이력서로 선택했다는 의미임
      • 통계적 동등성 차이를 곧바로 편향으로 해석하는 데는 주의가 필요함
      • 차이가 자기선호 때문일 수도 있지만, 동일한 후보 정보를 더 명확하고 일관되며 유창하게 표현한 내용 품질 차이 때문일 수도 있음
      • 여기서 내용 품질은 후보자의 자격이나 배경 차이가 아니라, 같은 정보를 전달하는 명확성·일관성·유창성·구성력을 뜻함

주요 실증 결과

  • 대부분의 모델에서 LLM-vs-Human 자기선호가 강하고 일관되게 나타남
  • GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, LLaMA 3.3-70B 같은 더 큰 모델은 내용 품질을 통제한 뒤에도 65%를 넘는 강한 편향을 보임
  • GPT-4o의 경우 LLM-vs-Human 자기선호가 80%를 넘었고, 주요 상용 및 오픈소스 모델 전반에서 인간 작성 이력서에 대한 자기선호 편향은 67%~82% 범위로 나타남
  • LLM-vs-LLM 자기선호는 모델별 차이가 더 큼
    • DeepSeek-V3는 이 설정에서 가장 강한 편향을 보였고, LLaMA 3.3-70B와 비교할 때 자기 출력물을 69% 선호함
    • DeepSeek-V3는 GPT-4o와 비교할 때도 자기 출력물을 28% 선호함
    • GPT-4o와 LLaMA 3.3-70B는 다른 모델이 생성한 콘텐츠를 평가할 때 일관된 자기선호를 보이지 않음
  • 평가는 지원자의 실질적 자격보다 평가 LLM의 생성 스타일과 얼마나 맞는지에 영향을 받을 수 있음
  • 이 편향은 특정 생성 기술에 접근하거나 특정 모델을 사용할 수 있는 지원자에게 부당한 이점을 주고, 그렇지 않은 지원자에게 불리하게 작동할 수 있음

채용 파이프라인에서의 영향

  • 24개 직업군에 대해 현실적인 채용 파이프라인을 시뮬레이션해 자기선호가 후보자 선별 결과에 미치는 운영상 영향을 측정함
  • 평가에 쓰이는 LLM과 같은 LLM을 사용한 지원자는 같은 자격을 갖추고 인간 작성 이력서를 낸 지원자보다 최종 후보(shortlist) 에 오를 가능성이 약 23%~60% 높았음
  • 불이익은 회계, 영업, 금융 같은 비즈니스 관련 분야에서 가장 크게 나타남
  • 농업, 예술, 자동차 관련 분야에서는 불이익이 상대적으로 덜 두드러짐
  • 같은 이점이 반복되는 채용 주기 전반에 지속되면, 지배적 LLM이 선호하는 이력서 스타일이 지원자 풀 안에 점차 고착되는 잠금 효과(lock-in) 가 생길 수 있음
  • 이런 잠금 효과는 후보자 선별의 다양성을 줄이고, 평가 기회의 배분에서 불평등을 증폭할 가능성이 있음
  • 채용 파이프라인은 면접과 평가 같은 후속 단계의 수용력이 제한되어 있어, 초기 이력서 선별 단계의 거짓 음성은 자격 있는 지원자를 되돌릴 수 없게 배제하고, 거짓 양성은 제한된 평가 자원을 소모하게 만듦

완화 전략과 공정성 함의

  • 자기선호의 핵심 메커니즘으로 자기인식(self-recognition) 이 제시됨
    • 자기인식은 모델이 자신이 생성한 콘텐츠를 암묵적으로 식별하는 능력을 뜻함
    • 기존 연구에서는 GPT-4와 LLaMA 2 같은 LLM이 유의미한 자기인식 능력을 보였고, 자기인식 능력과 자기선호 편향 크기 사이에 강한 양의 상관관계가 나타남
  • 두 가지 간단한 완화 전략이 제안됨
    • 시스템 프롬프팅

      • 모델에 이력서의 출처를 무시하고 실질적 내용에만 집중하라고 명시적으로 지시함
    • 다수결 앙상블

      • 평가 모델과 함께 자기인식이 약한 더 작은 모델들을 결합해, 단일 LLM의 편향을 희석함
      • 모든 테스트 대상 LLM에서 이 개입들은 LLM-vs-Human 자기선호를 상대적으로 17%~63% 줄임
      • 많은 경우 자기인식 능력을 겨냥한 단순한 개입만으로 편향을 50% 넘게 줄일 수 있음
      • 자기선호 편향은 널리 퍼져 있고 채용 결과에 실질적 영향을 주지만, 고정된 특성은 아니며 설계 개입으로 상당히 줄일 수 있음
      • AI 기반 채용의 공정성 프레임워크는 보호 속성에 따른 차별뿐 아니라, 생성과 평가에 쓰이는 AI 시스템 간 상호작용에서 생기는 상호작용 편향까지 다뤄야 함
      • 기업의 AI 거버넌스와 책임 있는 운영 설계는 입력 데이터와 보호 속성뿐 아니라, 어떤 모델이 지원자 자료를 만들고 어떤 모델이 그것을 평가하는지까지 포함해야 함
Read Entire Article