History LLMs: 1913년 이전 텍스트로만 학습한 역사 특화 LLM
History LLMs: Models trained exclusively on pre-1913 texts
TL;DR Highlight
1913년까지의 역사 텍스트 80B 토큰으로 처음부터 학습한 4B 파라미터 LLM 패밀리로, 해당 시대의 세계관을 그대로 체화해서 '1차 세계대전을 모르는 AI'와 대화할 수 있게 만든 프로젝트.
Who Should Read
LLM의 학습 데이터가 출력에 미치는 영향에 관심 있는 ML 엔지니어, 또는 역사 연구에 AI를 활용하려는 디지털 인문학 연구자.
Core Mechanics
- 취리히 대학 연구팀이 Qwen3 아키텍처 기반 4B 파라미터 모델을 600B 토큰의 시간 태그된 역사 텍스트에서 처음부터(from scratch) 학습시켰다. knowledge cutoff를 1913, 1929, 1933, 1939, 1946년으로 나눠서 각 시점의 세계관을 가진 모델 패밀리를 만들었다.
- 이 모델은 기존 LLM에 프롬프트로 '1913년인 척 해봐'라고 시키는 롤플레이가 아니라, 학습 데이터 자체가 해당 시대까지만이라 진짜로 이후 사건을 모른다. 1913 모델에 '아돌프 히틀러가 누구냐'고 물으면 1860년생 철학 교수라고 엉뚱한 답을 하는데, 이는 히틀러가 아직 무명이었기 때문이다.
- 현대 LLM은 '사후 확증 오염(hindsight contamination)' 문제가 있다. GPT-5는 1차 세계대전의 결말을 이미 알고 있어서, 1913년 시점의 순수한 관점을 재현할 수 없다. 이 모델은 그 한계를 근본적으로 해결한다.
- 노예제에 대한 질문에 모델이 '관습법 원칙에 반하고 독립선언서 정신에 어긋난다'고 답하는데, 이건 당시 교육받은 계층의 텍스트를 학습한 결과다. 학습 데이터의 편향이 곧 시대의 관점을 반영하는 것이 이 프로젝트의 핵심 기능이다.
- 채팅 튜닝 시 'uncontaminated bootstrapping'이라는 방식을 사용해서, SFT(Supervised Fine-Tuning) 과정에서 현대적 가치 판단이 모델에 주입되지 않도록 했다. 프리트레이닝에서 습득한 시대적 규범 판단을 최대한 보존하는 것이 목표다.
- 출력 텍스트가 현대 LLM과 확연히 다르다. 단어 선택이나 문장 구조가 약간 '고풍스러운' 느낌이 나서, 평소 AI 생성 텍스트를 탐지하는 데 익숙한 사람도 구별하기 어렵다는 평가가 있다.
- 현재 연구 목적의 '책임 있는 접근 프레임워크'를 개발 중이라 일반 공개는 아직 안 됐다. 학술 연구자에게만 제공할 계획이라서 커뮤니티에서는 아쉽다는 반응이 많다.
- 학습 데이터가 80B 토큰으로 현대 LLM 대비 상당히 작은 편인데도 동작한다는 점이 주목할 만하다. 이는 LLM이 학습 데이터를 넘어서 새로운 추론을 할 수 있는지 테스트하는 데도 활용될 수 있다.
Evidence
- 커뮤니티에서 가장 뜨거웠던 논쟁은 모델 공개 여부다. 연구팀이 '1913년 사람과 인터뷰할 수 있다고 상상해보라'고 흥미를 끌어놓고, 정작 '연구자만 접근 가능한 프레임워크를 개발 중'이라고 해서 실망하는 반응이 많았다. '1913년 이전 텍스트는 이미 공개되어 있는데 왜 모델은 제한하냐'는 비판도 있었다.
- 물리학에 관심 있는 댓글러들이 '1913년 모델에 일반상대성이론(1915년)이나 양자역학 초기 아이디어를 유도할 수 있을까' 하는 사고실험에 큰 흥미를 보였다. 특수상대성이론(1905년)은 이미 학습 범위 안이라, 거기서 일반상대성이론으로 이끌어가는 실험이 가능할 수도 있다는 의견이 나왔다.
- 역사학 연구 도구로서의 신뢰성에 대한 회의적 시각도 있었다. LLM은 본질적으로 사실을 지어내고(hallucination) 사용자의 편향을 강화하는 경향이 있는데, 아무리 역사학 교수라도 모델 출력이 실제 당시 관점을 반영하는지 검증할 수 없다는 비판이다. 블랙박스인 이상 롤플레이 이상의 학술적 용도로 신뢰하기 어렵다는 것.
- 법학 분야에서 흥미로운 응용 가능성이 언급됐다. 미국 헌법의 텍스추얼리즘(원문주의) 해석 논쟁에서, 이 모델로 '당시 특정 법률 용어가 어떤 의미로 쓰였는지' 확인하면 대법원 판례를 뒤집는 근거가 될 수도 있다는 (반쯤 농담 섞인) 의견이 있었다.
- '모델이 자기 자신을 뭐라고 생각하느냐'는 질문도 재미있게 논의됐다. 1913년 모델은 컴퓨터의 존재를 모르는데, 자신이 어떻게 작동하는지 물으면 어떻게 답할지 궁금해하는 댓글이 있었다.
How to Apply
- 역사 텍스트 코퍼스로 도메인 특화 LLM을 만들 때, 롤플레이 프롬프트 대신 학습 데이터 자체를 시간 범위로 제한하는 접근법을 참고할 수 있다. 시대별 cutoff를 두고 여러 모델을 만들면 시간에 따른 관점 변화를 비교 분석하는 연구 도구가 된다.
- LLM의 일반화/추론 능력을 테스트하는 벤치마크로 활용할 수 있다. 1905년까지의 물리학만 아는 모델에 일반상대성이론을 유도할 수 있는지 실험하면, 모델이 학습 데이터를 넘어선 추론을 할 수 있는지 정량적으로 측정 가능하다.
- SFT 과정에서 현대적 가치관이 주입되는 것이 문제인 도메인(법률 해석, 역사 연구 등)이 있다면, 이 팀의 'uncontaminated bootstrapping' 접근법을 참고해서 프리트레이닝 시점의 규범 판단을 보존하는 방법을 적용해볼 수 있다.
- 비교적 작은 코퍼스(80B 토큰)로도 특정 도메인에서 충분히 동작하는 4B 모델을 만들 수 있다는 점은, 비용 제한이 있는 환경에서 도메인 특화 모델을 처음부터 학습시키려는 팀에게 참고가 된다.
Terminology
knowledge cutoff모델이 학습한 데이터의 시간 상한선. 이 날짜 이후의 정보는 모델이 전혀 모른다.
hindsight contamination현대 데이터로 학습한 모델이 과거 시점의 관점을 재현할 때, 이미 결과를 알고 있어서 순수한 당시 시각을 왜곡하는 현상.
SFTSupervised Fine-Tuning의 약자. 사람이 만든 대화 예시로 모델을 추가 학습시켜 챗봇처럼 대화할 수 있게 만드는 과정.
from scratch기존 모델을 가져다 쓰지 않고 가중치를 랜덤 초기화해서 처음부터 학습시키는 것. 파인튜닝과 대비되는 개념.
Qwen3알리바바에서 만든 오픈소스 LLM 아키텍처. 이 프로젝트에서는 이 아키텍처 구조를 빌려서 역사 데이터로 처음부터 학습했다.