LLM의 ‘L’은 거짓말을 의미한다

3 weeks ago 12

  • AI 사용의 불가피성이라는 전제를 비판하며, 실제로는 AI를 사용하지 않아도 된다고 주장함
  • LLM의 본질을 ‘위조’ 행위로 비유하며, 진정성 없는 모방이 창작과 기술의 가치를 훼손한다고 지적
  • 오픈소스 커뮤니티와 개발 현장에서 AI 생성 코드가 품질 저하와 신뢰 붕괴를 초래하고 있음
  • 게임 산업은 AI 콘텐츠를 명확히 표시하거나 배제하며, 예술적 진정성을 지키려는 움직임을 보임
  • AI의 근본적 문제는 출처 불명성에 있으며, 진정한 해결책은 정확한 출처 표기와 인용 기능을 갖춘 모델 개발임

AI 사용의 불가피성에 대한 의문

  • LLM과 관련된 과도한 기대와 투자가 이어지고 있으나, 실제 결과물은 기존과 크게 다르지 않음
    • 새로운 모델이 이전 모델의 약속을 반복하며, 과장된 홍보의 역사가 누적되고 있음
  • “AI를 사용하지 않아도 괜찮다”는 주장을 통해, 기술 의존을 거부할 자유를 강조
  • AI를 사용하지 않는 것이 오히려 스트레스가 적고 만족도가 높다는 경험을 제시

위조와 진정성의 문제

  • LLM의 작동을 ‘위조’(forgery) 개념으로 설명
    • 반 고흐 화풍을 모방하거나, 가짜 법률 문서를 작성하거나, 데이터를 조작한 연구를 예로 듦
  • 위조는 진정성의 결여로 정의되며, 결과물이 공개되지 않아도 위조로 간주됨
  • LLM은 개인이 자신의 잠재적 산출물이나 타인의 결과물을 빠르게 위조할 수 있게 함
  • 진짜와 모조품의 경계는 사회적 합의로 정해지며, 식품의 원산지 보호나 전통 제조 방식과 유사한 맥락으로 제시됨
  • 장인정신(craft) 을 유지하지 못하면, 사회 전체가 품질 저하와 지식 쇠퇴를 겪게 됨

신뢰 붕괴와 오픈소스의 위기

  • 오픈소스 프로젝트들이 AI 생성 코드의 유입으로 어려움을 겪고 있음
    • 품질 낮은 PR과 버그 리포트가 늘어나며, 일부 프로젝트는 공개 기여나 버그 바운티를 중단
  • AI를 사용하는 신입 개발자는 표면적으로 빠르게 적응하지만, 실제로는 봇에 의존한 얕은 이해에 머무름
  • 숙련된 개발자조차 AI 코드 생산량 증가를 효율로 착각하지만, 이는 코드 부채 증가로 이어짐
  • “코드베이스에 모든 정보가 있다”는 주장은 소프트웨어 문제의 본질을 오해한 것으로 비판됨
  • 과도한 자동화와 복잡성이 오히려 단순한 인프라보다 비효율적임을 지적

도구와 사용자, 그리고 ‘슬롭 코드’

  • 숙련된 엔지니어는 AI 생성 코드의 반복성과 불필요한 복잡성을 쉽게 감지함
  • Microsoft Copilot Discord에서 ‘Microslop’이라는 단어를 금지한 사건은, AI 코드 품질 논란을 상징함
  • AI 도구가 “중독성 있다”거나 “최고의 친구”로 묘사되는 현상은, 창의성의 폭발이 아닌 의존성 증가로 해석됨
  • 현대 소프트웨어는 폐쇄적 구조와 복잡한 API로 인해 사용자가 직접 제어하기 어려운 상태
    • Excel은 여전히 주요 업무 도구이며, JSON에는 이에 상응하는 직관적 인터페이스 부재
  • Electron 앱의 범람은 AI가 진정한 생산성 향상을 가져오지 못했음을 보여줌

게임 산업의 대응과 예술적 진정성

  • 비디오 게임 업계는 AI 콘텐츠에 대해 명확한 표시와 사용자 선택권을 제공
    • Steam은 AI 생성 콘텐츠를 필터링하거나 정책을 명시함
  • 게임은 예술적 창작물로서, 모방이 창작자의 고유성을 훼손하기 때문에 AI 복제에 대한 거부감이 강함
  • 코드 재사용이 장점이 될 수 있는 소프트웨어와 달리, 예술은 개인적 비전과 진정성이 핵심임
  • 절차적 생성(procedural generation) 의 실패 사례를 통해, AI 콘텐츠의 단조로움과 가치 하락을 지적
  • AI 학습 데이터가 불법 복제 자료와 코드 저장소를 포함함으로써, 창의성보다 표절에 가까운 결과를 낳고 있음

출처 불명성과 ‘거짓말하는 기계’

  • AI 출력물은 출처가 명확하지 않아 위조물로 간주되어야 함
  • 진정한 해결책은 정확한 출처 인용과 추적 가능한 생성 과정을 포함하는 모델 설계
  • 현재 LLM의 인용 기능은 데이터의 우연한 패턴에 따른 ‘인용 흉내’ 에 불과함
  • 출처 기반 학습(backpropagation) 이 가능하려면, 가중치와 추론 과정이 감사 가능한 형태로 바뀌어야 함
  • “웹과 검색엔진 이후의 차세대 기술이 출처를 알 수 없는 구조로 설계되었다”는 점을 가장 큰 결함으로 지적
  • AI가 거짓말을 멈추려면, 스스로 출처를 명확히 인용해야 하며, AI 기업 또한 동일한 책임을 져야 함

Read Entire Article