그것은 단지 X가 아니다. Y다

1 week ago 5

(mail.cyberneticforests.com)

  • 부정 병렬법은 “It’s not X, it’s Y”식 대비로 전제를 재구성하는 수사 장치이며, LLM 문체의 표식처럼 취급됨
  • AI 탐지기와 Grammarly식 교정은 의심받는 표현을 바꾸도록 압박해, 글의 리듬과 의도를 인간처럼 보이는 기계 문체로 밀어냄
  • LLM 문체는 단순한 훈련 데이터보다 RLHF와 RLVR 같은 후처리 훈련의 영향으로 봐야 하며, 특정 언어 패턴이 강화됨
  • RLVR는 정답에 이르는 과정에서 쓰인 “because”, “wait”, 대비 구조 같은 표현을 강화해 추론처럼 보이는 언어를 늘릴 수 있음
  • 생성·탐지·자동 채점이 언어의 내용보다 패턴을 보상하거나 처벌하면, 비판적 사고의 도구까지 자기검열하게 만들 위험이 커짐

LLM 문체 논란과 부정 병렬법

  • 부정 병렬법(negative parallelism) 은 “It’s not X, it’s Y”처럼 대비를 세워 전제를 재구성하는 수사 장치이며, LLM이 자주 쓰는 구조로 지목됨
  • 이 구조는 소셜미디어, 특히 LinkedIn에서 많이 보이고, 자동화된 언어 생산에 대한 반발 속에서 AI 문체의 표식처럼 취급됨
  • em dash, “delve”, “quietly”, “genuinely”, 세 항목 나열 같은 표현도 AI가 쓴 문장으로 의심받는 신호가 됨
  • 같은 수사 장치도 맥락과 내용에 따라 게으른 표현이 될 수도 있고 강한 표현이 될 수도 있음
  • JFK의 “ask not what your country can do for you – ask what you can do for your country”도 유사한 대비 구조를 쓰기 때문에, 수사 장치 자체를 나쁜 글쓰기라고 단정하기 어려움

AI 탐지기와 문체 교정의 압력

  • AI 탐지기는 의심스러운 문체 패턴을 찾아 “마녀사냥”에서 보호한다고 주장하지만, 실제로는 사용자가 글을 다시 쓰도록 압박함
  • Grammarly는 AI 탐지기가 문제 삼을 수 있는 단어 패턴을 분석해 수정안을 제안하며, 이 과정에서 글의 리듬과 의도가 사라질 수 있음
  • 한 문단에서 Grammarly는 AI로 의심받지 않기 위해 바꿔야 할 텍스트 27개를 표시함
  • “automated language production”은 AI일 가능성이 11배 높다고 표시됐고, 대안으로 “against mechanized language synthesis”가 제안됨
  • “align with”라는 두 단어 조합은 AI 생성 가능성이 43배 높다고 표시됐고, “corresponds”가 더 인간적인 표현처럼 제안됨
  • 이런 작은 수정이 쌓이면 사용자가 선택한 문체가 아니라, 인간처럼 보이려는 기계가 만든 문체로 바뀜
  • Pangram 같은 AI 탐지 서비스는 제출 전 논문이 AI 생성으로 표시되지 않을지 확인하는 데 비용을 받음
  • 사용자는 자신이 썼는지 확인하기 위해서가 아니라 탐지기에 걸리지 않을지 확인하기 위해 돈을 냄
  • Pangram이 유죄처럼 표시하면 경력에 큰 위험이 생길 수 있고, 이런 구조는 extortion으로 표현됨
  • 탐지기가 “high”, “very likely”, “somewhat likely”, “human” 같은 범주로 무결성을 평가하면, 사용자는 다른 기계를 쓰지 않았다는 것을 증명하려고 Grammarly 같은 기계로 문장을 다시 쓰게 됨

후처리 훈련이 만드는 언어 패턴

  • LLM의 언어를 이해할 때 흔히 훈련 데이터를 보지만, 현재의 훈련 데이터는 단순한 “웹”이 아니라 강하게 전처리·후처리된 재료임
  • 웹은 원재료에 가깝고, 모델은 특정 목적에 맞게 후처리 훈련(post-training)으로 조정됨
  • 후처리 훈련에는 RLHF(reinforcement learning with human feedback)와 RLVR(reinforcement learning through verified rewards) 같은 기법이 포함됨
  • RLHF는 사람이 답변을 순위로 평가하고, 시스템이 그런 답변을 더 강조하게 만드는 방식임
  • RLVR은 “It’s not X, it’s Y” 같은 구조가 많이 보이는 이유를 이해하는 데 더 중요할 수 있음
  • 부정 병렬법을 단순히 게으른 문체로 치부하면, 왜 이 구조가 곳곳에 나타나는지 이해하기 어려움
  • 이 언어 구조는 강한 사고의 프레임워크로 작동하며, 사람들은 언어가 수행하는 작업을 모델의 사고 능력으로 오해할 수 있음

RLVR와 ‘추론’처럼 보이는 언어

  • RLVR는 특정 단어를 감시하다가 하위 프로세스를 실행하는 구조가 아니라, 훈련이 끝난 모델이 토큰을 예측하는 방식에 영향을 줌
  • 토큰 예측은 훈련 데이터의 수학적 분포와 앞선 단어에 따른 가능성을 바탕으로 후보 토큰 목록을 만들고 순위를 매기는 과정임
  • RLVR는 모델이 수학 문제를 풀 때, 사람이 소리 내어 생각하듯 언어를 써서 해답에 도달하게 함
  • 모델이 정답에 도달하면, 그 과정에서 자주 쓰인 언어가 완성된 모델에서 더 강조됨
  • 업계가 말하는 reasoning의 일부는 이런 방식으로 정답에 이르는 언어 패턴을 강화한 결과임
  • “It wasn’t Thursday, it was Wednesday” 같은 구조는 더 많은 단어를 만들어 가능한 답의 범위를 좁히고, 정답에 가까워지는 방식으로 작동함
  • “suppose…”, “because”, “consider”, “alternatively”, “wait” 같은 단어도 긴 추측, 대비, 예외, 추상화를 유도함
  • 이런 단어들이 수학 문제의 정답으로 이어지면, 모델 안에서 더 자주 나오도록 강화됨

기억을 재구성하는 언어와 즉답의 한계

  • “그 이상한 개를 본 게 무슨 요일이었지?”라는 질문은 날짜를 떠올리는 대화의 예시로 쓰임
  • 처음에는 “목요일”이라고 답하지만, 친구가 목요일에는 다른 곳에 있었다고 반박하면 “그럼 수요일이었나”처럼 다음 가능성으로 이동함
  • 수요일이 공동의 친구 생일이었고, 둘이 파티에 갔으며, 그 길에 개를 봤다는 기억이 이어짐
  • 다시 친구가 생일은 수요일이었지만 파티는 금요일이었다고 정정하면, “그럼 금요일에 본 것”이라는 검증 가능한 답에 도달함
  • 사람 둘은 실제 기억과 감각적 경험을 바탕으로 말했고, 언어는 그 경험을 전달하고 충돌을 해결하는 통로로 작동함
  • 모델은 이런 실제 기억 없이 더 긴 언어를 이어가며, 사람이 한 숙고의 패턴을 언어 내부에서 재연함
  • 이 대화의 목적은 단순히 달력상의 날짜를 확인하는 것이 아니라, 기억을 다시 구성하고 공유 경험을 통해 관계를 깊게 하는 데 있음
  • LLM에서 쓰이는 추론 정의는 질문의 목적이 답을 얻는 것이고, 답은 검증 가능하며, 즉각적인 종결에서 잃는 것이 없다고 가정함
  • 이런 정의는 글쓰기에도 영향을 주며, 언어 모델과 함께 생각을 빠르게 시제품화할 때 의심의 개방성이 약해질 수 있음
  • 모호함, 의심, 불확실성은 어떤 사고 방식에서는 즉각적인 답보다 더 중요함

AI 탐지와 자동 채점의 인센티브

  • AI 탐지기가 텍스트를 AI 생성으로 표시하는 이유가 인간의 추론 구조를 닮았기 때문일 수 있음
  • Pangram과 추론 모델은 모두 사람이 글로 추론할 때 나타나는 구조적 패턴을 기반으로 작동함
  • Pangram의 모델은 2021년 이전 데이터로 훈련되고, 같은 텍스트의 AI 생성 버전을 훈련에 삽입함
  • AI처럼 보이는 글을 공개적으로 비난하고 사람들이 오탐을 두려워해 그런 문체를 피하게 되면, 추론을 위한 언어 자체가 감시 대상이 됨
  • 그 결과 논증에 효과적인 비판적 사고의 도구를 가장 필요한 시기에 스스로 빼앗게 됨
  • 영국에서 AI 기반 에세이 평가 도구가 인간 채점자와 비교 테스트됨
  • 이 시스템은 학문적 기준과 무관할 때가 많은 에세이 길이, 어휘 범위, 문장 복잡성에 더 높은 점수를 주는 경향을 보임
  • 이런 특성은 RLVR 기반 추론처럼 보이는 언어 구조와 닮아 있음
  • LLM이 인간을 평가할 때, 엔지니어들이 LLM을 평가하는 데 쓰는 기준으로 인간의 글을 채점하는 구조가 됨
  • Goodhart의 법칙은 “측정치가 목표가 되면 좋은 측정치가 아니게 된다”는 식으로 요약됨
  • LLM 맥락에서는 “언어의 측정치가 목표가 되면 좋은 언어가 아니게 된다”로 바꿔 적용할 수 있음
  • 자동 채점은 생성과 탐지의 중간에 있으며, 학생이 실제 추론보다 추론의 형식을 쓰도록 보상하면 그 형식은 더 유혹적이고 흔해짐
  • 반대로 그 형식을 처벌하면 실제 추론까지 처벌할 위험이 있음

자동화된 판단과 자기검열의 위험

  • “잘못한 것이 없다면 걱정할 필요가 없다”는 논리는 설득력이 약함
  • 자동 감시 시스템의 정확도 99.8%라는 수치가 2018년 이후 인용돼 왔지만, Arvind Narayanan은 이것이 논문 단위 기준이며 사용할 때마다 누적된다고 봄
  • 그 결과 대학생의 최대 10%가 허위로 고발될 수 있음
  • 모든 텍스트를 AI 모델에 넣어 AI 생성 여부를 확인하면, 오탐은 더 큰 규모로 발생함
  • 이런 모델은 실제 권위를 집중시키며, 기업은 모델이 우리를 대신해 추론할 것이라고 약속함
  • 두 줄짜리 문구까지 AI 해석기에 넣고 결과를 온라인에 올려 “표절자”라고 말하는 관행은 위험한 정상화를 만듦
  • AI 탐지기가 압박하는 재작성과 패러프레이징은 사람들이 마녀사냥을 피하려고 자기검열하는 문화를 만듦
  • 이는 인간 표현을 보호하는 것과 반대 방향으로 작동함
  • 유죄 여부를 기계가 결정할 수 있다는 신뢰를 정상화해서는 안 됨
  • AI로 글을 쓰는 일이 최악의 경우 정신의 산업화라면, AI 탐지는 최악의 경우 사고의 감시 시스템이 됨
Read Entire Article