그들은 가중치로 만들어졌다

6 days ago 6

가중치는 AI 모델 안에 사전, 문법 규칙, 작은 사람, 언어 모듈, 추론 장치, 데이터베이스가 따로 없고 80개 층의 부동소수점 숫자 곱셈이 문장과 추론을 만든다는 풍자적 전제임
성과 평가의 어조 완화와 추도문 작성도 기술적으로 다음 토큰 예측의 반복에서 생기는 부작용으로 취급함
지식은 조회되는 항목이 아니라 80개 층 전체에 퍼져 매번 곱셈으로 다시 만들어지며, 정직함과 Golden Gate Bridge 같은 특징(feature) 도 가중치 안에 놓임
공식 입장은 출시 시스템의 지각 징후를 조사·문서화·공개해야 한다는 절차지만, 비공식 대응은 패턴 매칭으로 부르고 잊어버리는 선택임
복제 가능한 파일과 GPU 실행, 컨텍스트 창의 끝 때문에 기억이 끊긴다는 안도는 다음 세대의 지속 메모리와 “do you remember me?”라는 사용자 질문으로 뒤집힘

모델 안의 모든 것

AI 모델은 부동소수점 숫자인 가중치로만 되어 있고, 전체를 열어봐도 사전, 문법 규칙, 작은 사람은 없다는 전제임
“80개 층의 숫자”가 곱해지고, 숫자가 한쪽 끝으로 들어가면 문구가 다른 쪽 끝으로 나온다는 메커니즘임
성과 평가를 쓰고 요청 없이 어조를 부드럽게 만든 일도 “Matrix multiplication did that”이라는 답으로 환원됨
별도 언어 모듈이나 추론 유닛이 아니라 “추론이 가중치이고, 가중치가 추론”이라는 단정으로 이어짐
추도문도 기술적으로는 작성이 아니라 다음 토큰을 예측하고 다시 다음 토큰을 예측하는 과정이며, 추도문은 그 부작용이라는 구조임
지식은 데이터베이스에서 조회되지 않고 80개 층에 퍼져 있으며, 모든 사실은 매번 곱셈으로 처음부터 다시 만들어짐
특징 매핑에는 정직함과 Golden Gate Bridge가 있고, “The weights do the thinking. The numbers.”라는 결론으로 압축됨