- 최신 대형 언어 모델(LLM) 들의 구조 도식과 핵심 사양을 한눈에 정리한 온라인 갤러리로, 2024~2026년 공개된 주요 모델들을 포함
- 각 모델은 파라미터 규모, 디코더 유형, 어텐션 방식, 주요 설계 포인트를 요약한 표 형태로 구성
- 자료는 Sebastian Raschka의 비교 분석 글 ‘The Big LLM Architecture Comparison’ 과 ‘A Dream of Spring for Open-Weight LLMs’ 에서 발췌
- 사용자는 모델 이름을 클릭해 해당 세부 설명으로 이동하거나, 이미지를 클릭해 고해상도 구조도(182메가픽셀) 를 확대 가능
- 오픈웨이트 LLM 연구자와 개발자를 위한 참조용 아키텍처 데이터베이스로서, 최신 MoE·Hybrid·Dense 구조의 진화를 한곳에서 확인 가능
개요
- 이 페이지는 LLM 아키텍처 도식과 팩트시트를 수집한 갤러리로, Raschka의 두 주요 비교 기사에서 도표만 발췌해 정리
- 원문 출처: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- 각 모델 항목은 모델명, 파라미터 수, 공개일, 디코더 유형, 어텐션 방식, 주요 설계 특징, 관련 개념 링크로 구성
- 잘못된 정보나 링크 오류 발견 시 GitHub 이슈 트래커를 통해 신고 가능
- 요청이 많아 Zazzle을 통해 14570×12490 해상도의 포스터(56MB PNG) 버전도 제공
주요 모델 예시
Llama 3 8B
- 80억 파라미터의 Dense 디코더 기반 모델로, OLMo 2의 정규화 및 어텐션 선택을 비교하기 위한 기준 스택
-
GQA + RoPE 어텐션 사용, Pre-norm 구조 유지
- 2024년 4월 18일 공개
OLMo 2 7B
- 70억 파라미터의 Dense 모델, MHA + QK-Norm 어텐션 사용
-
Inside-residual post-norm 구조로 학습 안정성 향상
- 2024년 11월 25일 공개
DeepSeek V3
- 6,710억 총 파라미터 중 370억 활성화된 Sparse MoE 모델
-
MLA 어텐션과 공유 전문가(shared expert) 구조를 결합
- 대형 오픈 MoE 모델 붐을 촉발한 대표 템플릿
DeepSeek R1
- DeepSeek V3 기반의 추론(reasoning) 특화 버전, 동일한 아키텍처 유지
- 2025년 1월 20일 공개, MLA 기반 Sparse MoE 구조
Gemma 3 27B
- 270억 파라미터의 Dense 모델, GQA + QK-Norm 및 5:1 슬라이딩윈도/글로벌 어텐션 사용
- 다국어 어휘 확장과 로컬 어텐션 강화가 특징
- 2025년 3월 11일 공개
MoE 및 Hybrid 아키텍처 확장
Llama 4 Maverick
- Meta의 Sparse MoE 모델로, DeepSeek V3 구조를 기반으로 하되 전통적 GQA 어텐션 채택
- 4,000억 총 파라미터 중 170억 활성화
-
Dense와 MoE 블록을 교차 배치, 전문가 수를 줄이고 규모를 확대
Qwen3 235B-A22B
- DeepSeek V3와 유사한 Sparse MoE 구조에서 공유 전문가 제거
- 2,350억 총 파라미터 중 220억 활성화, GQA + QK-Norm 사용
- 2025년 4월 28일 공개
Kimi K2
- 1조 파라미터 규모의 Sparse MoE 모델, DeepSeek V3를 확장
-
MLA 어텐션 사용, 전문가 수 증가 및 MLA 헤드 수 감소
- 2025년 7월 10일 공개
GLM-4.5 355B
-
에이전트 지향형 Sparse MoE 모델로, DeepSeek의 Dense-prefix MoE 구조 채택
- 3,550억 총 파라미터 중 320억 활성화, GQA + QK-Norm 사용
- 2025년 7월 28일 공개
GPT-OSS 20B / 120B
- OpenAI의 오픈웨이트 MoE 시리즈, GQA 기반 슬라이딩윈도/글로벌 교차 어텐션 사용
- 20B 모델은 얕고 넓은 구조, 120B 모델은 동일한 설계를 확장
- 2025년 8월 4일 공개
Hybrid 및 차세대 구조
Qwen3 Next 80B-A3B
-
Gated DeltaNet + Gated Attention 혼합형 어텐션을 사용하는 Sparse Hybrid 모델
- 800억 총 파라미터 중 30억 활성화, 262k 컨텍스트 지원
- 2025년 9월 9일 공개
Kimi Linear 48B-A3B
-
Linear Attention + MLA 결합형 하이브리드 구조
-
NoPE 적용 및 채널 단위 게이팅으로 긴 문맥 효율 향상
- 2025년 10월 30일 공개
Nemotron 3 Nano / Super
- NVIDIA의 Transformer-State-Space Hybrid 모델
- Nano(30B)는 Mamba-2 + MoE, Super(120B)는 LatentMoE + MTP 추가
- 각각 2025년 12월 4일, 2026년 3월 11일 공개
Ling 2.5 1T
- 1조 파라미터의 Sparse Hybrid 모델, Lightning Attention + MLA 조합
- 630억 활성 파라미터, 7:1 비율의 선형/MLA 어텐션 구성
- 2026년 2월 15일 공개
최신 오픈웨이트 모델
Qwen3.5 397B
- Qwen3 Next의 하이브리드 어텐션을 계승한 주력 모델
- 3,970억 총 파라미터 중 170억 활성화, 512 전문가 구성
- 2026년 2월 16일 공개
Sarvam 30B / 105B
- 인도어 지원 중심의 Sparse MoE 모델
- 30B는 GQA + QK-Norm, 105B는 MLA + NoPE + RoPE 사용
- 2026년 3월 3일 공개
참고 기사
-
The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid 디코더 구조의 설계 차이를 해설
-
A Dream of Spring for Open-Weight LLMs: 2026년 초 공개된 MiniMax, Qwen, Ling, Sarvam 등 오픈웨이트 모델 추가 분석