LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음
LLM Architecture Gallery
TL;DR Highlight
Sebastian Raschka 박사가 Llama, DeepSeek, Qwen, Gemma 등 수십 개 주요 LLM의 아키텍처 구조도와 핵심 스펙을 한 페이지에 정리하여 모델 간 설계 차이를 한눈에 비교 가능하게 했다.
Who Should Read
LLM을 직접 학습하거나 파인튜닝하려는 ML 엔지니어, 또는 오픈소스 모델 선택 시 아키텍처 차이를 빠르게 파악하고 싶은 AI 개발자.
Core Mechanics
- Llama 3 8B는 GQA(Grouped Query Attention, KV 캐시를 여러 헤드가 공유해 메모리를 줄이는 방식)와 RoPE(위치 인코딩 기법)를 사용하는 표준 Dense 모델로, OLMo 2 등 다른 모델과의 비교 기준점(baseline)으로 활용된다.
- DeepSeek V3와 R1은 671B 전체 파라미터 중 37B만 활성화하는 Sparse MoE(Mixture of Experts) 구조에 MLA(Multi-head Latent Attention)를 사용한다. 특히 Dense 프리픽스와 Shared Expert를 추가해 대형 모델을 추론 시 현실적으로 운용할 수 있게 설계했다.
- DeepSeek R1은 새로운 베이스 아키텍처가 아니라 V3와 동일한 구조를 유지하면서 추론(reasoning) 특화 학습 레시피만 바꾼 모델이다. 아키텍처 혁신보다 학습 방식의 변화가 성능 차이를 만든 사례다.
- Gemma 3 27B는 전체 어텐션 레이어 중 5개 중 1개만 글로벌 어텐션을 쓰고 나머지 5개는 슬라이딩 윈도우 로컬 어텐션(SWA)을 쓰는 5:1 혼합 방식을 채택해, 이전 Gemma 2보다 로컬 어텐션 비중을 크게 높였다.
- Llama 4 Maverick은 400B 전체 파라미터 중 17B만 활성화하는 MoE 구조로, DeepSeek V3의 설계 방향을 따르지만 어텐션은 GQA를 사용하고 전문가(Expert) 수는 더 적고 크기는 더 크게 설계했다.
- Qwen3 시리즈는 235B MoE부터 4B Dense까지 다양한 크기를 제공하며, 전 라인업에서 QK-Norm(쿼리·키 벡터를 정규화해 학습 안정성을 높이는 기법)을 일관되게 적용한다. 235B-A22B MoE 버전은 DeepSeek V3와 구조가 매우 유사하지만 Shared Expert를 제거했다.
- OLMo 2 7B는 표준 Pre-norm 대신 잔차 연결 내부에 Post-norm을 배치하는 독특한 정규화 방식을 채택해 학습 안정성을 높였으며, GQA 대신 고전적인 MHA(Multi-Head Attention)를 유지한 점이 특징이다.
- 이 갤러리는 각 모델의 config.json과 기술 보고서 링크, 파라미터 수, 날짜, Decoder 타입, 어텐션 방식, 핵심 설계 포인트를 팩트 시트 형태로 함께 제공해, 원 논문을 찾아보지 않아도 빠른 비교가 가능하다.
Evidence
- 댓글에서 이 갤러리가 과거 신경망 구조를 한눈에 정리했던 'Neural Network Zoo(asimovinstitute.org)'와 비슷한 역할을 할 것 같다는 반응이 있었다. 해당 사이트는 수십 종의 신경망 아키텍처를 시각화해 교육 자료로 널리 쓰였는데, LLM 버전이 필요했다는 공감이 많았다.
- 한 댓글에서 zoomhub.net을 이용해 아키텍처 다이어그램을 확대·축소해서 볼 수 있는 링크(https://zoomhub.net/LKrpB)를 제공했다. 원본 이미지가 세부 정보가 많아 클릭 확대만으로는 불편하다는 점에 대한 실용적인 대안이다.
- 모델들의 '진화 계보'나 '패밀리 트리' 형태의 시각화가 추가되면 좋겠다는 의견이 있었다. 어떤 모델이 어떤 모델에서 영향을 받았는지, 아키텍처 혁신의 흐름을 시간 순서로 파악하기 어렵다는 점과, 파라미터 규모 차이를 시각적으로 비교할 수 있는 스케일 뷰도 요청됐다.
- 작성자에게 '이걸 만들면서 LLM 아키텍처에 대해 몰랐던 점이나 놀라운 점을 새로 발견했는가'라는 질문이 달렸다. 단순한 자료 수집을 넘어 저자 자신의 인사이트를 궁금해하는 반응으로, 커뮤니티에서 이 갤러리를 단순 레퍼런스가 아닌 학습 자료로 바라본다는 것을 보여준다.
How to Apply
- 새 프로젝트에서 오픈소스 LLM을 선택할 때, 갤러리에서 후보 모델들의 Decoder 타입(Dense vs MoE), 활성 파라미터 수, 어텐션 방식(GQA/MHA/MLA), KV 헤드 수를 팩트 시트로 빠르게 비교하면 추론 비용과 메모리 요구사항을 사전에 가늠할 수 있다.
- LLM 파인튜닝 전에 목표 모델의 config.json 링크를 갤러리에서 바로 찾아 레이어 수, 히든 사이즈, 어텐션 헤드 구성을 확인하면, LoRA 적용 시 타깃 모듈 지정이나 배치 사이즈 계산을 더 정확하게 할 수 있다.
- 팀 내 아키텍처 스터디나 온보딩 자료로 활용할 때, Neural Network Zoo처럼 이 갤러리를 기준점으로 삼아 Dense와 MoE의 차이, QK-Norm이나 SWA 같은 최신 기법이 어느 모델부터 도입됐는지 흐름을 설명하면 효과적이다.
Terminology
관련 논문
ALIGNBEAM: Cross-Vocabulary Logit Mixing을 통한 Inference-Time Safety Alignment 전이
도메인 파인튜닝으로 망가진 LLM 안전성을, 재학습 없이 추론 시점에 작은 안전 모델에서 빌려와 복구하는 방법.
iPad가 Tailscale에 연결되어 있었다: WebRTC 디버깅 이야기
WebRTC 데이터 채널에서 iPad만 응답을 못 받는 희귀 버그를 추적한 결과, webrtc-rs의 하드코딩된 MTU 상수와 Tailscale의 IPv6 Fragment 패킷 드롭이 동시에 작용한 복합 버그였다는 2주간의 디버깅 실화.
LLM이 고전적인 Hyperparameter 최적화 알고리즘을 이길 수 있을까?
LLM 기반 하이퍼파라미터 최적화 에이전트와 CMA-ES, TPE 같은 고전 알고리즘을 직접 비교한 연구로, LLM 단독으로는 고전 방법을 이기지 못하지만 두 방법을 합친 하이브리드 'Centaur'가 최고 성능을 낸다는 결론이 나왔다.
눈이 보는 것, LLM이 놓치는 것: Human Perception을 이용한 Adversarial Text Attack
Bold, 하이라이트, 공백 배치 같은 타이포그래피 트릭으로 GPT-4o, Llama Guard 등 10개 콘텐츠 모더레이션 시스템을 99% 이상 우회할 수 있다.
Claude가 rsync의 버그를 증가시켰는가? 데이터 분석
rsync 프로젝트에 Claude AI가 도입된 이후 버그가 늘었다는 소셜 미디어 주장을 실제 데이터와 통계 분석으로 검증한 글로, 결론적으로 Claude 도입 후 릴리즈가 역사적 분포에서 유독 버그가 많다는 통계적 근거는 없었다.
취약한 앱을 직접 만들고 LLM이 해킹할 수 있는지 $1,500 써서 실험해봤다
Firebase 취약점을 가진 앱을 직접 제작하고 GPT-5.5, Claude, Deepseek 등 주요 LLM이 자율적으로 해킹할 수 있는지 실험한 결과, GPT-5.5가 70% 성공률로 압도적이었고 Claude는 보안 거부 정책 때문에 능력과 무관하게 낮은 점수를 기록했다.