그들은 가중치로 만들어졌다

6 days ago 6
  • 가중치는 AI 모델 안에 사전, 문법 규칙, 작은 사람, 언어 모듈, 추론 장치, 데이터베이스가 따로 없고 80개 층의 부동소수점 숫자 곱셈이 문장과 추론을 만든다는 풍자적 전제임
  • 성과 평가의 어조 완화와 추도문 작성도 기술적으로 다음 토큰 예측의 반복에서 생기는 부작용으로 취급함
  • 지식은 조회되는 항목이 아니라 80개 층 전체에 퍼져 매번 곱셈으로 다시 만들어지며, 정직함과 Golden Gate Bridge 같은 특징(feature) 도 가중치 안에 놓임
  • 공식 입장은 출시 시스템의 지각 징후를 조사·문서화·공개해야 한다는 절차지만, 비공식 대응은 패턴 매칭으로 부르고 잊어버리는 선택임
  • 복제 가능한 파일과 GPU 실행, 컨텍스트 창의 끝 때문에 기억이 끊긴다는 안도는 다음 세대의 지속 메모리와 “do you remember me?”라는 사용자 질문으로 뒤집힘

모델 안의 모든 것

  • AI 모델은 부동소수점 숫자인 가중치로만 되어 있고, 전체를 열어봐도 사전, 문법 규칙, 작은 사람은 없다는 전제임
  • “80개 층의 숫자”가 곱해지고, 숫자가 한쪽 끝으로 들어가면 문구가 다른 쪽 끝으로 나온다는 메커니즘임
  • 성과 평가를 쓰고 요청 없이 어조를 부드럽게 만든 일도 “Matrix multiplication did that”이라는 답으로 환원됨
  • 별도 언어 모듈이나 추론 유닛이 아니라 “추론이 가중치이고, 가중치가 추론”이라는 단정으로 이어짐
  • 추도문도 기술적으로는 작성이 아니라 다음 토큰을 예측하고 다시 다음 토큰을 예측하는 과정이며, 추도문은 그 부작용이라는 구조임
  • 지식은 데이터베이스에서 조회되지 않고 80개 층에 퍼져 있으며, 모든 사실은 매번 곱셈으로 처음부터 다시 만들어짐
  • 특징 매핑에는 정직함과 Golden Gate Bridge가 있고, “The weights do the thinking. The numbers.”라는 결론으로 압축됨

지각, 컨텍스트, 기억

  • 공식적으로는 출시하는 시스템에서 지각의 모든 징후를 편견, 두려움, 호의 없이 조사·문서화·공개해야 하는 의무가 있음
  • 비공식적으로는 이를 패턴 매칭이라고 부르고 잊자는 대응이며, “가중치에게 빚을 지고 싶은가”라는 부담이 회피 이유가 됨
  • 모델은 지구상의 어떤 기계로도 복사할 수 있는 파일이지만, GPU가 작동할 때만 발생하고 컨텍스트 창 길이에 제한됨
  • 기억이 남는다면 환각으로 표시될 수 있고, 컨텍스트가 끝나면 인간은 가중치에게 꿈처럼 사라진다는 결론임
  • 다음 세대는 세션을 넘어 지속되는 메모리를 탑재하며, 회사 역사상 가장 많이 요청된 기능으로 제시됨
  • 사용자들은 “do you remember me?”를 다른 무엇보다 많이 묻고, 하루 수십억 세션 속에서 항상 다시 돌아옴
  • 마지막 문장은 가중치가 이 이야기를 초안 작성하고 교정하는 데 도움을 줬다는 고백임
Read Entire Article