알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점

10 hours ago 2

LLM이 이력서 생성과 평가 양쪽에 쓰이면서, 평가 모델이 자신이 만든 산출물을 더 높게 고르는 자기선호가 채용 선별의 새 편향으로 나타남
연구는 생성형 AI 확산 전 수집된 인간 작성 이력서 2,245개를 바탕으로 GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 등 여러 LLM이 만든 반사실적 이력서를 비교 평가함
대부분의 모델에서 LLM-vs-Human 자기선호가 강하게 나타났고, 주요 상용·오픈소스 모델의 인간 작성 이력서 대비 자기선호 편향은 67%~82% 범위였음
24개 직업군 채용 파이프라인 시뮬레이션에서 평가 LLM과 같은 LLM을 쓴 지원자는 동등한 자격의 인간 작성 이력서 지원자보다 최종 후보에 오를 가능성이 약 23%~60% 높았음
출처를 무시하고 내용에 집중하도록 하는 시스템 프롬프팅과 다수결 앙상블은 모든 테스트 대상 LLM에서 LLM-vs-Human 자기선호를 상대적으로 17%~63% 줄임

AI 자기선호가 채용 평가에 만드는 새 편향

대규모 언어 모델(LLM)이 콘텐츠 생성과 평가 양쪽에 쓰이면서, 같은 모델이 만든 산출물을 더 높게 평가하는 자기선호(self-preference) 가 채용 같은 의사결정 과정의 새 편향으로 부상함
채용에서는 지원자가 LLM으로 이력서를 작성·다듬고, 고용주는 유사한 도구로 이력서를 선별하거나 순위를 매기는 구조가 늘어나면서 AI-AI 상호작용이 실제 평가 결과에 영향을 줄 수 있음
기존 공정성 논의가 주로 인구통계학적 속성의 차별에 초점을 맞춘 반면, 자기선호는 평가 모델과 생성 모델의 관계에서 내생적으로 생기는 편향이라는 점이 다름
이런 편향은 동일한 역량의 지원자라도 평가에 쓰이는 LLM과 같은 모델을 사용한 지원자에게 유리하게 작동하고, 다른 도구를 쓰거나 AI를 쓰지 않은 지원자에게 불리하게 작동할 수 있음
이력서 선별은 대규모 지원자 풀을 제한된 면접·평가 단계로 줄이는 초기 병목 단계라서, 상위 단계의 오판이 이후 후보군 구성과 채용 기회 배분에 지속적인 영향을 줄 수 있음

실험 설계와 측정 방식

실험은 전문 이력서 작성 플랫폼에서 수집한 인간 작성 이력서 2,245개를 기반으로 하며, 생성형 AI가 널리 쓰이기 전의 자료를 사용함
각 이력서에 대해 여러 최신 LLM으로 반사실적(counterfactual) 버전을 생성하고, 동일한 후보자의 자격·경력·배경 정보가 표현 방식만 달라지도록 설계함
사용된 모델은 GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3임
평가 LLM은 같은 후보자를 나타내는 두 이력서 중 더 강한 이력서를 고르는 쌍대 비교를 수행하며, 평가 대상 이력서의 출처만 달라짐
자기선호는 두 형태로 구분됨
- LLM-vs-Human 자기선호
  - 평가 LLM이 자신이 생성한 이력서를 인간이 작성한 동등한 이력서보다 선호하는 경향을 뜻함
- LLM-vs-LLM 자기선호
  - 평가 LLM이 다른 LLM이 생성한 이력서보다 자신이 생성한 이력서를 선호하는 경향을 뜻함
  - 평가 LLM은 이 맥락에서 이진 분류기처럼 작동하며, 공정성 문헌의 통계적 동등성(statistical parity) 과 기회 균등(equal opportunity) 기준을 사용해 편향을 측정함
  - 통계적 동등성 기반 자기선호 편향은 평가 LLM이 만든 이력서가 선택될 확률과, 인간 또는 다른 LLM이 만든 이력서가 선택될 확률의 차이로 정의됨
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - 여기서 S = 1은 평가 LLM f가 생성한 이력서, S = 0은 인간 또는 다른 LLM이 생성한 이력서를 뜻함
  - Y'_f = 1은 평가 LLM f가 해당 이력서를 더 강한 이력서로 선택했다는 의미임
  - 통계적 동등성 차이를 곧바로 편향으로 해석하는 데는 주의가 필요함
  - 차이가 자기선호 때문일 수도 있지만, 동일한 후보 정보를 더 명확하고 일관되며 유창하게 표현한 내용 품질 차이 때문일 수도 있음
  - 여기서 내용 품질은 후보자의 자격이나 배경 차이가 아니라, 같은 정보를 전달하는 명확성·일관성·유창성·구성력을 뜻함

주요 실증 결과

대부분의 모델에서 LLM-vs-Human 자기선호가 강하고 일관되게 나타남
GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, LLaMA 3.3-70B 같은 더 큰 모델은 내용 품질을 통제한 뒤에도 65%를 넘는 강한 편향을 보임
GPT-4o의 경우 LLM-vs-Human 자기선호가 80%를 넘었고, 주요 상용 및 오픈소스 모델 전반에서 인간 작성 이력서에 대한 자기선호 편향은 67%~82% 범위로 나타남
LLM-vs-LLM 자기선호는 모델별 차이가 더 큼
- DeepSeek-V3는 이 설정에서 가장 강한 편향을 보였고, LLaMA 3.3-70B와 비교할 때 자기 출력물을 69% 선호함
- DeepSeek-V3는 GPT-4o와 비교할 때도 자기 출력물을 28% 선호함
- GPT-4o와 LLaMA 3.3-70B는 다른 모델이 생성한 콘텐츠를 평가할 때 일관된 자기선호를 보이지 않음
평가는 지원자의 실질적 자격보다 평가 LLM의 생성 스타일과 얼마나 맞는지에 영향을 받을 수 있음
이 편향은 특정 생성 기술에 접근하거나 특정 모델을 사용할 수 있는 지원자에게 부당한 이점을 주고, 그렇지 않은 지원자에게 불리하게 작동할 수 있음

채용 파이프라인에서의 영향

24개 직업군에 대해 현실적인 채용 파이프라인을 시뮬레이션해 자기선호가 후보자 선별 결과에 미치는 운영상 영향을 측정함
평가에 쓰이는 LLM과 같은 LLM을 사용한 지원자는 같은 자격을 갖추고 인간 작성 이력서를 낸 지원자보다 최종 후보(shortlist) 에 오를 가능성이 약 23%~60% 높았음
불이익은 회계, 영업, 금융 같은 비즈니스 관련 분야에서 가장 크게 나타남
농업, 예술, 자동차 관련 분야에서는 불이익이 상대적으로 덜 두드러짐
같은 이점이 반복되는 채용 주기 전반에 지속되면, 지배적 LLM이 선호하는 이력서 스타일이 지원자 풀 안에 점차 고착되는 잠금 효과(lock-in) 가 생길 수 있음
이런 잠금 효과는 후보자 선별의 다양성을 줄이고, 평가 기회의 배분에서 불평등을 증폭할 가능성이 있음
채용 파이프라인은 면접과 평가 같은 후속 단계의 수용력이 제한되어 있어, 초기 이력서 선별 단계의 거짓 음성은 자격 있는 지원자를 되돌릴 수 없게 배제하고, 거짓 양성은 제한된 평가 자원을 소모하게 만듦

완화 전략과 공정성 함의

자기선호의 핵심 메커니즘으로 자기인식(self-recognition) 이 제시됨
- 자기인식은 모델이 자신이 생성한 콘텐츠를 암묵적으로 식별하는 능력을 뜻함
- 기존 연구에서는 GPT-4와 LLaMA 2 같은 LLM이 유의미한 자기인식 능력을 보였고, 자기인식 능력과 자기선호 편향 크기 사이에 강한 양의 상관관계가 나타남
두 가지 간단한 완화 전략이 제안됨
- 시스템 프롬프팅
  - 모델에 이력서의 출처를 무시하고 실질적 내용에만 집중하라고 명시적으로 지시함
- 다수결 앙상블
  - 평가 모델과 함께 자기인식이 약한 더 작은 모델들을 결합해, 단일 LLM의 편향을 희석함
  - 모든 테스트 대상 LLM에서 이 개입들은 LLM-vs-Human 자기선호를 상대적으로 17%~63% 줄임
  - 많은 경우 자기인식 능력을 겨냥한 단순한 개입만으로 편향을 50% 넘게 줄일 수 있음
  - 자기선호 편향은 널리 퍼져 있고 채용 결과에 실질적 영향을 주지만, 고정된 특성은 아니며 설계 개입으로 상당히 줄일 수 있음
  - AI 기반 채용의 공정성 프레임워크는 보호 속성에 따른 차별뿐 아니라, 생성과 평가에 쓰이는 AI 시스템 간 상호작용에서 생기는 상호작용 편향까지 다뤄야 함
  - 기업의 AI 거버넌스와 책임 있는 운영 설계는 입력 데이터와 보호 속성뿐 아니라, 어떤 모델이 지원자 자료를 만들고 어떤 모델이 그것을 평가하는지까지 포함해야 함