MacMind – 1989년 Macintosh의 HyperCard로 구현한 Transformer 신경망
Show HN: MacMind – A transformer neural network in HyperCard on a 1989 Macintosh
TL;DR Highlight
HyperTalk으로 1,216개 파라미터짜리 단일 레이어 Transformer를 Macintosh SE/30에서 학습시켜 현대 LLM의 핵심 수학이 30년 전 하드웨어에서도 동일하게 동작함을 증명했다.
Who Should Read
Transformer와 backpropagation의 내부 동작 원리를 시각적으로, 코드 레벨에서 깊이 이해하고 싶은 개발자나 AI를 처음 공부하는 사람. 특히 블랙박스 없이 모든 수식을 직접 뜯어보고 싶은 사람에게 적합하다.
Core Mechanics
- 이 프로젝트는 HyperTalk(1987년에 만들어진 HyperCard용 스크립팅 언어)로 완전한 Transformer 신경망을 구현했다. 행렬 연산을 위해 설계된 언어가 아닌데도 컴파일된 코드나 외부 라이브러리 없이 순수 스크립트만으로 동작한다.
- 모델 크기는 1,216개 파라미터의 단일 레이어, 단일 헤드 Transformer다. GPT-4의 약 1조 개 파라미터와 비교하면 극도로 작지만, forward pass → loss 계산 → backward pass → 가중치 업데이트로 이어지는 학습 루프의 수학은 완전히 동일하다.
- 학습 태스크는 비트 역순 치환(bit-reversal permutation)이다. 이는 고속 푸리에 변환(FFT)의 첫 번째 단계로, 각 위치 인덱스의 이진 표현을 뒤집어 순서를 재배열하는 연산이다. 예를 들어 8개 원소 시퀀스에서 위치 1(001)은 위치 4(100)로 이동한다.
- 구현 내용에는 token embedding(토큰을 벡터로 변환), positional encoding(위치 정보 추가), scaled dot-product self-attention(쿼리-키-밸류 기반 어텐션), cross-entropy loss, 완전한 backpropagation, stochastic gradient descent(확률적 경사하강법)이 모두 포함되어 있다.
- HyperCard의 스크립트 에디터에서 Option-클릭하면 버튼 뒤의 실제 수식 코드를 바로 볼 수 있다. 학습률 변경, 학습 태스크 교체, 모델 크기 조정을 모두 GUI 안에서 직접 할 수 있어 학습 도구로서의 목적이 명확하다.
- 제작 목적은 'AI는 마법이 아니라 수학'임을 증명하는 것이다. backpropagation과 attention이 TPU 클러스터에서 돌아가든 1987년산 68000 프로세서에서 돌아가든 수학은 같다는 메시지를 담고 있다.
- 실제로 1989년 Macintosh SE/30에서 학습을 완료했으며, Python으로 작성된 validate.py 검증 스크립트도 함께 제공된다.
Evidence
- 오래된 하드웨어에서 현대 AI 아이디어를 구동하는 것(이 프로젝트나 Windows 3.1에서 LLM 추론 실행 등)이 갖는 의미에 대해, '발전이 단순히 더 큰 GPU와 더 많은 컴퓨팅 때문만은 아니라 더 영리한 수학과 알고리즘 덕분임을 상기시켜 준다'는 반응이 있었다. '하드웨어를 던져버리는' 현재 트렌드보다 초기 컴퓨팅의 정신에 더 가깝다는 평가다.
- 1988년에 backpropagation을 처음 공부하면서 동시에 HyperCard 프로그래밍에 빠졌다는 사람이 '이 프로젝트가 그 시절 우아한 도구를 떠올리게 한다'고 회고하며 반가움을 표했다.
- HyperCard Simulator(hcsimulator.com)에서 실행 가능하다는 정보가 공유됐다. XCMD(외부 컴파일 명령)가 없으면 시뮬레이터에서도 충분히 동작한다며 직접 임포트한 링크(https://hcsimulator.com/imports/MacMind---Trained-69E0132C)까지 제공했다.
- GitHub 리포지토리에 Python 검증 스크립트만 있고 실제 HyperCard 스택(.img 파일)의 소스코드가 어디 있는지 묻는 댓글이 있었다. 실제 HyperTalk 코드를 직접 보고 싶어하는 개발자들의 관심을 반영한다.
- '현대적 개념들이 현대적인 이유는 단지 그 시절에 아무도 생각하지 않았기 때문'이라며, 이 프로젝트가 고대 그리스에 세균 이론을 전달하는 것 같은 느낌이라는 철학적 댓글도 있었다. 기술의 발전이 근본 개념의 발명보다 구현 수단의 발전임을 상기시키는 맥락이다.
How to Apply
- Transformer의 attention, backpropagation 수식을 이론이 아닌 실제 동작하는 코드로 공부하고 싶다면, HyperCard Simulator(hcsimulator.com)에서 MacMind를 직접 열고 각 버튼을 Option-클릭해 수식 구현 코드를 단계별로 읽으면 된다. 외부 라이브러리 없이 순수 수식으로만 구현되어 있어 개념을 명확히 파악할 수 있다.
- 주니어 개발자나 비ML 백엔드 개발자에게 Transformer 학습 과정을 설명해야 할 때, MacMind의 학습 태스크(비트 역순 치환)와 1,216 파라미터 모델을 예시로 들면 'forward pass → loss → backward pass → weight update' 루프를 직관적으로 설명할 수 있다.
- 학습률, 모델 크기 등 하이퍼파라미터가 학습에 미치는 영향을 빠르게 실험해보고 싶다면, HyperCard 스크립트 에디터에서 값을 수정하고 재실행해볼 수 있다. 실험 환경이 완전히 투명하게 공개되어 있어 각 변경이 결과에 미치는 영향을 추적하기 쉽다.
Terminology
관련 논문
PyTorch Lightning AI 학습 라이브러리에서 Shai-Hulud 테마 악성코드 발견
널리 쓰이는 딥러닝 프레임워크 PyTorch Lightning의 PyPI 패키지 버전 2.6.2와 2.6.3이 공급망 공격으로 침해되어, import 시 자격증명 탈취 악성코드가 실행된다.
Alignment Whack-a-Mole: 파인튜닝이 LLM 내부의 저작권 도서 암기를 활성화한다
안전 정렬(alignment)된 LLM도 파인튜닝을 거치면 억제됐던 저작권 책 내용을 그대로 출력하게 된다는 연구로, LLM의 저작권 침해 위험이 단순히 프롬프트 필터링으로는 해결되지 않음을 보여준다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
Nanocode: $200로 TPU에서 JAX로 구현하는 나만의 Claude Code 학습 라이브러리
이 오픈소스 라이브러리는 Constitutional AI 방식으로 $200 TPU에서 1.3B 파라미터 규모의 coding agent 모델을 처음부터 학습하게 하며 개발자가 AI 학습 파이프라인 전체를 직접 이해하고 실습할 수 있는 환경을 제공한다.
Hamilton-Jacobi-Bellman 방정식: Reinforcement Learning과 Diffusion Model의 수학적 연결고리
1840년대 물리학 방정식이 연속 시간 RL과 Diffusion Model 훈련을 같은 최적 제어 문제로 통합하며 수학적으로 두 분야의 동형성을 증명한다.