HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 – 두 개의 게이밍 GPU로, 가중치 변경 없이

1 month ago 19

거대한 72B 파라미터 LLM의 중간 7개 레이어를 복제해 재조합함으로써, 어떤 학습도 없이 리더보드 1위를 달성한 사례
실험은 RTX 4090 두 장으로 수행되었으며, 모델의 가중치를 수정하지 않고 중간 레이어를 반복 실행하는 구조만 변경
수학 추론과 감정 추론(EQ) 두 가지 소규모 프록시 태스크를 통해 최적의 레이어 범위를 탐색
결과적으로 Qwen2-72B 기반 RYS-XLarge 모델이 평균 +2.61% 향상, 특히 MuSR +17.72%, MATH +8.16% 개선을 기록
이 접근은 LLM 내부의 ‘기능적 회로(circuit)’ 존재 가능성을 보여주며, 대규모 모델의 ‘신경해부학적 구조’ 연구로 이어짐

오픈 LLM 리더보드와 실험 배경

2024년 중반 HuggingFace의 Open LLM Leaderboard는 공개 가중치 모델들의 경쟁장이었음
- 평가 항목: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
저자는 새 모델 학습이나 파인튜닝 없이, 기존 모델의 중간 레이어 일부를 복제하는 방식으로 실험 수행
복제된 레이어는 모델의 ‘사고(thinking)’ 과정을 담당하는 부분으로 추정됨

단서 1 – Base64 대화 실험

LLM이 Base64로 인코딩된 질문을 이해하고 올바른 답을 Base64로 반환하는 현상을 관찰
입력 형식이 달라도 모델이 추론을 수행하는 점에서, 초기 레이어는 입력 해석(translation), 후기 레이어는 출력 변환(re-translation) 역할을 한다는 가설 제시
이에 따라 중간 레이어는 추상적 사고를 수행하는 영역일 가능성 제기

단서 2 – Goliath-120B 모델의 이상 구조

HuggingFace의 Goliath-120B는 두 개의 Llama-2 70B 모델을 교차 결합한 구조로, 후기 레이어 출력을 전기 레이어 입력으로 피드백
정상 학습 분포를 벗어난 구조임에도 모델이 작동함을 확인
이를 통해 레이어 간 표현이 상호 호환 가능하며, Transformer 내부 표현이 균질적(homogenous) 임을 시사

‘브레인 스캐너’ 구축

Qwen2-72B 모델의 모든 (i, j) 레이어 구간 조합(총 3,241개) 을 테스트하는 파이프라인 구축
각 조합에서 특정 레이어 구간을 두 번 통과시키는 방식으로 모델을 재구성
평가 기준은 세 가지 조건을 충족해야 함
- 출력 최소화 (속도 확보)
- 객관적 채점 가능성
- 인지적 독립성 (두 태스크가 동시에 향상될 경우 구조적 개선으로 간주)

프록시 태스크 설계

Hard Math Probe: 복잡한 산술 문제의 정답을 직접 추정
EQ-Bench Probe: 사회적 상황에서 감정 강도를 0~100으로 예측
두 태스크 모두 짧은 출력과 명확한 정답을 제공해 구조적 변화를 측정하기 적합

수학 채점 함수와 부분 정답 평가

LLM의 숫자 오류(자리수 누락, 전치 등)를 고려해 부분 일치 점수 계산 함수를 개발
짧은 답변을 패딩하고 상대 오차를 계산해 정답률을 연속 점수로 환산
이를 통해 미세한 성능 차이를 정량적으로 구분 가능

RYS-XLarge 모델의 구성

최적 조합은 (45, 52) 로, 45~51번 레이어를 한 번 더 반복
결과적으로 7개 중간 레이어 복제, 총 파라미터는 72B → 78B
가중치 변경 없이 구조만 수정, VRAM 추가 사용 없이 포인터 복제 방식으로 구현

리더보드 성과

항목 점수 기준 대비 향상

평균	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

5개 항목에서 향상, 평균 점수로 리더보드 1위 달성
개발 과정에서 리더보드 항목을 사용하지 않았기에 순수한 구조적 일반화 효과로 평가됨

Transformer의 ‘기능적 회로’ 발견

단일 레이어 반복은 효과가 없었으나, 연속된 블록 단위 반복에서만 성능 향상
이는 중간 레이어들이 독립적 반복 연산이 아닌, 다단계 연산 회로(circuit) 로 작동함을 의미
예: 46~52번 레이어는 하나의 ‘레시피’처럼 단계별 추론을 수행
- 전체 블록을 반복하면 추론을 한 번 더 수행하는 효과 발생

Heatmap 분석과 ‘LLM Neuroanatomy’

각 (i, j) 조합의 성능을 시각화한 히트맵은 fMRI와 유사한 패턴을 보임
수학 태스크에서는 중간 레이어 반복 시 향상, EQ 태스크에서는 다른 영역에서 향상
이는 Transformer 내부에 과제별 기능 회로가 존재함을 시사

잘못된 복제의 부작용

일부 조합은 모델이 비정상적 언어 반복, 망상적 출력을 보임
이는 특정 회로를 과도하게 확장한 결과로, ‘인공 뇌 손상’ 에 비유됨
예: 사회적 적절성 회로가 손상되어 비정상적 대화 패턴 발생

후속 연구와 파생 모델

RYS-XLarge를 기반으로 여러 연구자가 파인튜닝 및 ORPO 학습을 추가 수행
2026년 초 기준 리더보드 상위 4개 모델 모두 RYS 구조 기반 78B 모델
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys 등

구조적 확장과 의미

레이어 복제는 파인튜닝과 독립적이며 병행 가능
모델이 ‘무엇을 아는가’가 아니라 ‘어떻게 사고하는가’를 바꾸는 방법
대형 모델일수록 기능 영역이 분화되어 회로 단위 복제가 효과적
소형 모델은 인코딩·추론·디코딩 기능이 얽혀 있어 동일 효과가 제한적

향후 계획

Qwen, MiniMax, GLM 등 최신 모델에 동일 기법 적용 중
각 모델마다 고유한 ‘신경해부학적 구조’ 가 존재함을 확인
향후 코드 공개 및 RYS 시리즈 추가 배포 예정
저자는 “이제는 쥐 뇌 대신 인공 두뇌를 해부하고 있다”고 표현

결론

가중치 변경 없이 레이어 복제만으로 LLM 성능을 향상시킨 실험
Transformer 내부에 기능적 회로와 구조적 분화가 존재함을 실증
이는 모델 해석 가능성(mechanistic interpretability) 과 효율적 아키텍처 확장의 새로운 방향을 제시함

Read Entire Article