NanoEuler – 순수 C/CUDA로 처음부터 만든 GPT-2 규모 언어 모델 | AI Paper Digest

TL;DR Highlight

PyTorch나 autograd 없이 C와 CUDA만으로 GPT-2 수준의 LLM을 처음부터 구현한 교육용 프로젝트로, 역전파·BPE 토크나이저·FlashAttention까지 직접 손으로 작성했다.

Who Should Read

딥러닝 프레임워크 내부 동작 원리를 C/CUDA 수준에서 직접 이해하고 싶은 ML 엔지니어나 시스템 프로그래머. 특히 역전파·어텐션 메커니즘을 코드로 깊게 파고들고 싶은 개발자에게 적합하다.

Core Mechanics

PyTorch, autograd, 어떤 ML 라이브러리도 쓰지 않고 순수 C와 CUDA만으로 GPT-2 스타일의 LLM 전체 학습 파이프라인을 구현했다. 이 프로젝트의 핵심 목표는 '동작하는 결과물'이 아니라 '모든 것을 직접 만들어보는 엔지니어링 경험'이다.
순전파(forward pass)와 역전파(backward pass, 즉 gradient를 계산해서 가중치를 업데이트하는 과정)를 모두 손으로 작성했고, CPU 기반 reference 구현과 전체 모델 gradient check로 정확성을 검증했다. double precision(배정밀도) 모드로 수치 검증까지 완료했다.
BPE(Byte Pair Encoding, 자주 등장하는 문자 쌍을 반복적으로 합쳐서 어휘를 구성하는 토크나이징 방법) 토크나이저도 직접 구현했다. byte-level BPE 방식이라 어떤 언어나 특수문자도 처리할 수 있다.
CUDA 엔진에는 cuBLAS(NVIDIA의 행렬 연산 라이브러리)로 행렬 곱셈을 처리하고, FlashAttention(메모리 효율적인 어텐션 알고리즘)도 직접 손으로 구현했다. CPU 버전은 libm과 OpenMP로 병렬처리를 지원한다.
소규모 모델(약 76만 파라미터)은 CPU에서, 약 1억 1600만(116M) 파라미터짜리 대형 모델은 RTX 4070 단일 GPU에서 학습할 수 있도록 설계했다.
사전학습(pretraining)은 책과 웹 코퍼스를 사용했고, 이후 SFT(Supervised Fine-Tuning, 정답 예시를 보여주며 지도학습하는 파인튜닝)까지 연결되는 전체 파이프라인이 완성되어 있다. RLHF/DPO는 추후 계획 단계다.
프로젝트 이름 'Euler'는 수학적 의미에서 따온 것으로, 잔차 블록(residual block)의 x = x + f(x) 연산이 수치해석의 forward-Euler 방법(미분방정식을 단계적으로 적분하는 기법)과 구조적으로 동일하기 때문이다. 즉 깊은 신경망은 '이산화된 ODE(상미분방정식)'로 볼 수 있다.
프로젝트 자체적으로 '이것은 유용한 챗봇이 아니다'라고 명시하고 있다. 116M 파라미터를 단일 소비자 GPU로 학습한 수준이라 자연스러운 영어 생성 정도는 되지만, 실제 지식이나 추론 능력은 없다. 학습/엔지니어링 목적의 교육용 결과물이다.

Evidence

CUDA 부분의 실제 동작 여부에 의문을 제기하는 댓글이 있었다. CUDA 소스 코드 내부에 LLM이 남긴 것으로 보이는 'untested(테스트 안 됨)'라는 주석이 발견됐다는 지적이 있었고, 실제로 CUDA 코드가 제대로 동작하는지 묻는 질문이 이어졌다.
README가 AI(LLM)로 작성된 것으로 보인다는 지적이 나왔다. em-dash(—) 사용 패턴이 AI 글쓰기 특유의 스타일이라는 이유였고, 프로젝트 자체가 얼마나 직접 작성된 것인지(vibe-coding인지) 궁금하다는 반응이 여럿 있었다.
Neural ODE 언급이 맥락상 맞지 않는다는 기술적 반론도 있었다. Transformer의 residual connection은 모든 구현체에 공통적으로 사용되는 것이지, 이것이 곧 Neural ODE를 학습한다는 의미는 아니라는 지적이었다.
코딩 스타일이 매우 독특하다는 댓글도 있었다. C 코드에 `astyle --style=python` 포맷터를 적용한 듯한 스타일이라는 표현으로, Python 스타일의 들여쓰기·포맷이 C 코드에 적용된 것이 어색하다는 의견이었다.
학습에 얼마나 걸렸는지, 몇 토큰을 학습했는지, CUDA 행렬 곱셈 최적화를 어떻게 했는지, PyTorch 대비 학습 속도 차이가 얼마나 되는지 같은 구체적인 벤치마크 질문들이 많았지만, 원문이나 저자 답변에 수치가 명시되어 있지 않다.

How to Apply

딥러닝 프레임워크 없이 역전파 원리를 코드 수준에서 이해하고 싶다면, `make check` 명령어로 gradient check부터 실행해보면서 각 레이어의 역전파 구현 코드를 직접 읽어볼 수 있다. 수식과 코드를 1:1로 대조하기 좋은 구조다.
소규모 모델(76만 파라미터)은 CPU에서도 학습이 가능하므로, GPU가 없는 환경에서도 `./nanoeuler train` 명령어로 전체 학습 파이프라인(토크나이징 → 사전학습 → 채팅 REPL)을 처음부터 끝까지 직접 돌려볼 수 있다.
FlashAttention을 직접 구현한 CUDA 코드가 포함되어 있으므로, CUDA 커널 작성 방법이나 FlashAttention 알고리즘 내부 구조를 학습하려면 `cuda/` 디렉토리의 코드를 CPU reference 구현과 비교하면서 읽어보면 된다.
사전학습 후 SFT(지도 파인튜닝)까지 연결되는 전체 파이프라인이 단일 레포에 있으므로, 커스텀 데이터셋으로 처음부터 학습하는 minimal한 LLM 파이프라인 레퍼런스가 필요할 때 이 코드를 템플릿으로 참고할 수 있다.

Code Example

snippet

# gradient check (역전파 정확성 검증)
make check

# 학습 바이너리 빌드
make

# 소규모 모델 학습 (~0.76M 파라미터, CPU 가능)
./nanoeuler train

# 대형 모델 학습 (~10M 파라미터, GPU 권장)
./nanoeuler train big

# 채팅 REPL 실행 (프롬프트 입력 → 모델이 이어서 생성)
./nanoeuler chat

Terminology

BPEByte Pair Encoding의 약자. 자주 등장하는 문자(바이트) 쌍을 반복적으로 합쳐서 어휘(vocabulary)를 만드는 토크나이징 방법. GPT 계열 모델이 텍스트를 숫자로 변환할 때 사용한다.

FlashAttentionTransformer의 어텐션 연산을 GPU 메모리를 훨씬 적게 쓰면서 빠르게 계산하는 알고리즘. 긴 시퀀스를 처리할 때 메모리 병목을 줄여주는 핵심 최적화 기법이다.

gradient check역전파로 계산한 gradient(기울기)가 수학적으로 맞는지 확인하는 검증 방법. 수치 미분(아주 작은 값으로 직접 기울기를 근사 계산)과 비교해서 오차가 허용 범위 안에 있는지 본다.

SFTSupervised Fine-Tuning의 약자. 사전학습된 모델에 '질문-정답' 형태의 예시 데이터를 보여주며 추가로 학습시키는 방법. 범용 텍스트 생성기를 특정 목적(예: 채팅)에 맞게 다듬는 과정이다.

residual block입력값 x를 그대로 출력에 더해주는 구조(x = x + f(x)). 딥러닝에서 깊은 네트워크를 학습할 때 gradient가 사라지는 문제를 방지하기 위해 ResNet 이후 널리 쓰인다.

cuBLASNVIDIA가 제공하는 GPU용 선형대수 라이브러리. 행렬 곱셈처럼 딥러닝에서 가장 많이 쓰이는 연산을 GPU에서 최적화해서 실행해준다.

NanoEuler – 순수 C/CUDA로 처음부터 만든 GPT-2 규모 언어 모델