- 거대한 72B 파라미터 LLM의 중간 7개 레이어를 복제해 재조합함으로써, 어떤 학습도 없이 리더보드 1위를 달성한 사례
- 실험은 RTX 4090 두 장으로 수행되었으며, 모델의 가중치를 수정하지 않고 중간 레이어를 반복 실행하는 구조만 변경
- 수학 추론과 감정 추론(EQ) 두 가지 소규모 프록시 태스크를 통해 최적의 레이어 범위를 탐색
- 결과적으로 Qwen2-72B 기반 RYS-XLarge 모델이 평균 +2.61% 향상, 특히 MuSR +17.72%, MATH +8.16% 개선을 기록
- 이 접근은 LLM 내부의 ‘기능적 회로(circuit)’ 존재 가능성을 보여주며, 대규모 모델의 ‘신경해부학적 구조’ 연구로 이어짐
오픈 LLM 리더보드와 실험 배경
- 2024년 중반 HuggingFace의 Open LLM Leaderboard는 공개 가중치 모델들의 경쟁장이었음
- 평가 항목: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- 저자는 새 모델 학습이나 파인튜닝 없이, 기존 모델의 중간 레이어 일부를 복제하는 방식으로 실험 수행
- 복제된 레이어는 모델의 ‘사고(thinking)’ 과정을 담당하는 부분으로 추정됨
단서 1 – Base64 대화 실험
- LLM이 Base64로 인코딩된 질문을 이해하고 올바른 답을 Base64로 반환하는 현상을 관찰
- 입력 형식이 달라도 모델이 추론을 수행하는 점에서, 초기 레이어는 입력 해석(translation), 후기 레이어는 출력 변환(re-translation) 역할을 한다는 가설 제시
- 이에 따라 중간 레이어는 추상적 사고를 수행하는 영역일 가능성 제기
단서 2 – Goliath-120B 모델의 이상 구조
- HuggingFace의 Goliath-120B는 두 개의 Llama-2 70B 모델을 교차 결합한 구조로, 후기 레이어 출력을 전기 레이어 입력으로 피드백
- 정상 학습 분포를 벗어난 구조임에도 모델이 작동함을 확인
- 이를 통해 레이어 간 표현이 상호 호환 가능하며, Transformer 내부 표현이 균질적(homogenous) 임을 시사
‘브레인 스캐너’ 구축
- Qwen2-72B 모델의 모든 (i, j) 레이어 구간 조합(총 3,241개) 을 테스트하는 파이프라인 구축
- 각 조합에서 특정 레이어 구간을 두 번 통과시키는 방식으로 모델을 재구성
- 평가 기준은 세 가지 조건을 충족해야 함
-
출력 최소화 (속도 확보)
-
객관적 채점 가능성
-
인지적 독립성 (두 태스크가 동시에 향상될 경우 구조적 개선으로 간주)
프록시 태스크 설계
-
Hard Math Probe: 복잡한 산술 문제의 정답을 직접 추정
-
EQ-Bench Probe: 사회적 상황에서 감정 강도를 0~100으로 예측
- 두 태스크 모두 짧은 출력과 명확한 정답을 제공해 구조적 변화를 측정하기 적합
수학 채점 함수와 부분 정답 평가
- LLM의 숫자 오류(자리수 누락, 전치 등)를 고려해 부분 일치 점수 계산 함수를 개발
- 짧은 답변을 패딩하고 상대 오차를 계산해 정답률을 연속 점수로 환산
- 이를 통해 미세한 성능 차이를 정량적으로 구분 가능
RYS-XLarge 모델의 구성
- 최적 조합은 (45, 52) 로, 45~51번 레이어를 한 번 더 반복
- 결과적으로 7개 중간 레이어 복제, 총 파라미터는 72B → 78B
-
가중치 변경 없이 구조만 수정, VRAM 추가 사용 없이 포인터 복제 방식으로 구현
리더보드 성과
항목
점수
기준 대비 향상
| 평균 |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
-
5개 항목에서 향상, 평균 점수로 리더보드 1위 달성
- 개발 과정에서 리더보드 항목을 사용하지 않았기에 순수한 구조적 일반화 효과로 평가됨
Transformer의 ‘기능적 회로’ 발견
- 단일 레이어 반복은 효과가 없었으나, 연속된 블록 단위 반복에서만 성능 향상
- 이는 중간 레이어들이 독립적 반복 연산이 아닌, 다단계 연산 회로(circuit) 로 작동함을 의미
- 예: 46~52번 레이어는 하나의 ‘레시피’처럼 단계별 추론을 수행
- 전체 블록을 반복하면 추론을 한 번 더 수행하는 효과 발생
Heatmap 분석과 ‘LLM Neuroanatomy’
- 각 (i, j) 조합의 성능을 시각화한 히트맵은 fMRI와 유사한 패턴을 보임
- 수학 태스크에서는 중간 레이어 반복 시 향상, EQ 태스크에서는 다른 영역에서 향상
- 이는 Transformer 내부에 과제별 기능 회로가 존재함을 시사
잘못된 복제의 부작용
- 일부 조합은 모델이 비정상적 언어 반복, 망상적 출력을 보임
- 이는 특정 회로를 과도하게 확장한 결과로, ‘인공 뇌 손상’ 에 비유됨
- 예: 사회적 적절성 회로가 손상되어 비정상적 대화 패턴 발생
후속 연구와 파생 모델
- RYS-XLarge를 기반으로 여러 연구자가 파인튜닝 및 ORPO 학습을 추가 수행
- 2026년 초 기준 리더보드 상위 4개 모델 모두 RYS 구조 기반 78B 모델
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys 등
구조적 확장과 의미
- 레이어 복제는 파인튜닝과 독립적이며 병행 가능
- 모델이 ‘무엇을 아는가’가 아니라 ‘어떻게 사고하는가’를 바꾸는 방법
- 대형 모델일수록 기능 영역이 분화되어 회로 단위 복제가 효과적
- 소형 모델은 인코딩·추론·디코딩 기능이 얽혀 있어 동일 효과가 제한적
향후 계획
- Qwen, MiniMax, GLM 등 최신 모델에 동일 기법 적용 중
- 각 모델마다 고유한 ‘신경해부학적 구조’ 가 존재함을 확인
- 향후 코드 공개 및 RYS 시리즈 추가 배포 예정
- 저자는 “이제는 쥐 뇌 대신 인공 두뇌를 해부하고 있다”고 표현
결론
-
가중치 변경 없이 레이어 복제만으로 LLM 성능을 향상시킨 실험
- Transformer 내부에 기능적 회로와 구조적 분화가 존재함을 실증
- 이는 모델 해석 가능성(mechanistic interpretability) 과 효율적 아키텍처 확장의 새로운 방향을 제시함