LLM이 인간 같은 속성을 가진다면 Age of Empires II도 그렇다
9 hours ago
3
- LLM 연구의 의인화 평가는 모델 출력에 인간 같은 속성을 부여하거나 가정할 때 측정 기준 없이 해석이 표현 방식에 좌우될 수 있다는 문제 제기
- Age of Empires II 안에 단순 신경망을 구현·훈련한 사례는 충분히 강력한 기질(substrate) 이라면 LLM과 동등한 엔티티를 구현할 수 있다는 근거
- 프롬프트와 출력의 대응 같은 일부 속성은 유지될 수 있지만, 지각된 행동의 해석이나 탈의인화 품질은 기질에 따라 달라질 수 있다는 주장
- 일반화된 의인화 속성의 존재나 부재를 전제로 실험하면 결론이 순환적이거나 정보성이 낮아지는 귀결
- 경험적 논의를 위해서는 명시적 측정 기준과 기질 간 일반화 대상의 선언이 필요하며, 기본값은 LLM 비고유성을 가정하는 방식
초록
- LLM과 LLM 기반 에이전트 워크플로에 관한 연구가 많지만, 일부 연구는 도덕성이나 자연어 이해 같은 일반화된 의인화 속성의 출현을 말하거나, 그런 속성을 부여하거나, 그런 속성을 가정
- 핵심 목표는 LLM에 그런 속성이 존재하는지 찬반을 논하는 것이 아니라, 그런 결론이 틀릴 수 있음을 보이는 데 있음
- Age of Empires II에서 단순 신경망을 만들고 훈련한 뒤, LEGO나 Greater Boston Area 같은 충분히 강력한 기질의 어떤 엔티티도 그런 속성을 보일 수 있다는 점을 제시
- LLM의 의인화 속성은 경험적으로 고유하지 않으며, 프롬프트에 대한 응답 같은 일부 속성은 일정하게 유지될 수 있어도 지각된 행동의 해석 같은 다른 속성은 기질에 따라 달라질 수 있음
- 경험에 근거한 논의에는 명시적 측정 기준이 필요하며, 그렇지 않으면 해석이 표현 방식에 맡겨지는 구조
- 기질과 독립적인 일반화 속성의 존재 또는 부재를 가정하면, 실험자 관점과 무관하게 순환적이거나 정보성이 낮은 결론으로 귀결
- 기본 가정은 의인화 속성을 전제로 실험을 세우는 대신 LLM 비고유성을 가정하는 ‘null’ 가정
- Age of Empires II가 함수적으로 완전하고 Turing-complete임을 증명
서론
- LLM은 비교적 새로운 기술이지만 널리 쓰이고 있으며, 동시에 충분히 이해되지 않은 대상
- LLM의 능력과 커뮤니케이션 능력 같은 겉보기 인간 속성은 사람들이 LLM을 의인화하게 만드는 요인
- ELIZA 같은 설득력 있는 대화 시스템은 반세기 넘게 존재했지만, LLM 기반 챗봇은 익숙한 출발점에서 설명이 필요한 전례 없는 능력을 가진 엔티티
- 이런 배경 속에서 마음 이론, 학습과 이해, 심리학 같은 영역의 평가가 이뤄졌고 결과는 다양
- 일부 연구는 불안이나 도덕성 같은 포괄적 인간 유사 속성을 LLM에 테스트하고 부여하며, LLM을 실험의 중심 대상으로 설정
- 평가 결과가 긍정적이든 부정적이든, LLM이 의인화 속성을 가진다는 핵심 가정은 테스트 세트 설계, 자연어 출력 해석, 귀무가설까지 실험 계획에 영향
- 그런 가정은 결론에 직접 영향을 미치고 결론을 왜곡할 수 있음
- LLM 연구에서 일반적 의인화 속성의 존재 또는 부재를 측정의 일부로 가정하는 방식은 근본적으로 결함 있는 접근
Age of Empires II와 기질 비고유성
- Age of Empires II 안에 신경망을 구현하고 훈련하는 작업은 LLM 의인화와 무관한 재미있는 연습처럼 보일 수 있음
- 이 구현은 충분히 강력한 기질이라면 LLM과 동등한 엔티티를 구현할 수 있으며, 그런 구현이 LLM의 표현을 바꿔 지각되는 속성에 영향을 줄 수 있음을 즉시 함의
- LLM이 의인화 속성을 어느 정도 모방하는 데 충분히 효과적이라면, 그 모방 또는 관점에 따라 진짜 의인화 행동은 컴퓨터 안에 존재하는 LLM이라는 엔티티에만 특유한 것이 아님
- LLM은 비고유적이며, 다른 기질의 구현은 프롬프트-출력 매핑 같은 일부 속성을 보존할 수 있지만 탈의인화 품질은 보존하지 않을 수 있음
- 그 결과 그런 품질에 대한 지각과 해석은 달라짐
- 경험적 관찰에 기반한 논의에는 명시적 측정 기준과, 어떤 측면이 기질을 넘어 일반화되어야 하는지에 대한 명시적 진술이 필요
가정의 문제와 ‘null’ 가정
- 어떤 과학자가 계산주의적 마음 이론 같은 프레임워크를 해석적 입장으로 받아들이고, 해당 속성이 기질과 무관하게 시스템에 존재할 수 있다고 본다면 결론은 불건전해짐
- 그런 프레임워크를 받아들여 의인화 속성에 관한 일반화된 주장 또는 비일반화된 주장을 만들면, 결론은 순환적이거나 정보성이 낮아짐
- 같은 결과는 그 프레임워크를 거부하는 경우에도 성립
- 일반화된 의인화 속성의 존재나 부재를 증명하거나 반증하는 가설을 테스트하기 위해, 그 속성의 존재나 부재를 먼저 가정하는 방식은 결함
- 이런 실험에서 나온 긍정적 또는 부정적 결론은 해당 주장을 뒷받침하지 못함
- 이 문제는 프레임워크의 타당성, 수용 또는 거부 여부, 프레임워크 선택과 독립적
- 그런 가정은 명시적으로 드러나지 않을 수도 있으며, 예컨대 LLM이 사실적으로 ‘자기 자신을 설명’할 능력이 없다는 논문은 이미 어느 정도의 자기인식을 가정
- 일반화 가능성을 주장하지 않고 이런 가정을 하지 않는다면, 해당 속성은 근사적으로 진실하게 측정될 수 있음
- ‘null’ 가정은 시스템 안 의인화 속성의 존재나 부재에 대해 어떤 진술도 하지 않음으로써 LLM 비고유성을 반영하는 방식
1.1 기여
- 목표는 LLM 안 의인화 속성의 존재 여부, 마음 이론의 타당성, AI와 관련된 의식 또는 심신 문제의 함의를 논하는 것이 아님
- 의인화 속성의 존재 여부 논의에는 잘 정의된 측정이 필요하며, 의식이나 심신 문제와 관련해서는 널리 받아들여진 실험 프로토콜이나 학파가 없음
- 작동하는 Age of Empires II 기반 LLM을 제공하는 것도 범위 밖
- 주된 목적은 LLM 의인화와 관련한 가정과 결과의 정확성에 관한 논의를 촉진하는 데 있음
- 특히 그런 결론을 뒷받침하는 전제인 실험 결과가 해당 속성의 존재 또는 부재 가정에서 나온 경우가 핵심 대상
- 잠재적 반론과 답변, 의인화와 관련한 분야의 작은 메타 리뷰, Age of Empires II의 함수적 완전성과 Turing-completeness 증명도 포함
- 궁극적 목표는 마음과 기계의 관계에 대해 어떤 관점을 취하든, LLM의 의인화 속성 존재를 설득력 있게 지지하거나 반증하는 엄밀한 실험을 만드는 단서 제공
-
Homepage
-
개발자
- LLM이 인간 같은 속성을 가진다면 Age of Empires II도 그렇다