Knuth의 'Claude Cycles' 문제, 인간 + AI + 증명 보조 도구 협업으로 추가 진전
Further human + AI + proof assistant work on Knuth's "Claude Cycles" problem
TL;DR Highlight
AI(LLM)와 Lean 형식 증명 보조 도구, 인간 전문가의 협력이 Donald Knuth의 'Claude Cycles' 문제를 해결하며 AI의 수학 연구 실질적 기여 가능성을 입증했다.
Who Should Read
AI가 수학적 추론이나 형식 검증(formal verification)에 어느 수준까지 활용될 수 있는지 궁금한 개발자나 연구자. 특히 Lean, Coq 같은 증명 보조 도구나 수리 AI에 관심 있는 사람.
Core Mechanics
- 이 글은 컴퓨터 과학의 전설 Donald Knuth가 제시한 'Claude Cycles'라는 수학 문제를 풀기 위해, 인간 수학자 + LLM(대형 언어 모델) + 형식 증명 보조 도구(proof assistant, 예: Lean)를 함께 사용하는 협업 방식을 다루고 있다.
- 원문 트윗이 JavaScript 비활성화로 직접 접근이 안 되지만, 커뮤니티 댓글과 맥락을 보면 이전 작업에서 한 단계 더 나아간 진전(further work)을 보고한 내용으로, 이런 식의 인간-AI 협업이 순수 수학 연구에서 실제 성과를 내고 있음을 보여준다.
- LLM은 '깊이는 얕지만 넓은 탐색'에 강하다는 평가가 있다. 즉, 전문가가 방향을 잡아주면 LLM이 넓은 가능성 공간을 빠르게 탐색해 후보 아이디어를 제시하는 역할을 잘 수행한다.
- 형식 증명 보조 도구(proof assistant)는 Lean, Coq 같은 소프트웨어로, 수학적 증명을 기계가 검증 가능한 형태로 작성하게 해준다. AI가 제안한 증명 아이디어를 이 도구로 검증하면 오류를 확실히 걸러낼 수 있다.
- 커뮤니티 일부에서는 향후에는 LLM보다 AlphaGo 스타일의 강화학습(RL)을 Lean 문법 트리에 적용하는 방식이 더 강력할 것이라는 예측도 나왔다. Lean 구문 트리 위에서 RL을 돌리면 훨씬 긴 시간 스케일에서 추론이 가능하기 때문이다.
- 전문 수학자들의 무기고는 대략 10가지 핵심 트릭으로 구성된다는 관찰이 있는데, 이 트릭들을 잠재 벡터(latent vector, AI 모델 내부의 추상적 표현)로 코드화할 수 있다면 AI가 수학 연구를 크게 가속할 수 있다는 의견도 있었다.
- 전반적으로 AI는 전문가가 가이드를 줄 때 '전문가를 위한 반복 작업'을 잘 처리하지만, 정말 어렵고 복잡한 문제에서는 여전히 맹점(blind spot)이 존재한다는 냉정한 평가도 공존한다.
Evidence
- 'AI가 Fields 메달(수학 최고 권위 상)을 받는 게 McDonald's 매니저 역할을 맡는 것보다 먼저일 것'이라는 재치 있는 댓글이 화제가 됐다. 수학은 뇌라는 망치로 나사를 조이는 것처럼 어색해 보이지만, LLM에게는 오히려 '넓고 얕은 탐색'이 강점이기 때문에 수학 연구와 궁합이 맞는다는 주장이다.
- 향후에는 LLM 대신 AlphaGo 스타일 강화학습을 Lean 문법 트리에 적용하는 방식이 대세가 될 것이라는 예측이 있었다. RL 기반 방식은 훨씬 긴 시간 스케일에서 탐색할 수 있어 복잡한 증명에 더 유리할 것이라는 논리다.
- 전문가 가이드가 있을 때 AI가 좋은 성과를 낸다는 점은 놀랍지 않다는 현실적인 의견도 있었다. AI는 전문가의 '게으른 작업(lazy work)'을 잘 처리하지만, 진짜 어려운 문제에서는 여전히 맹점이 있다는 지적이다.
- 이 스레드가 bot인지 사람인지 구분이 안 된다는 댓글도 있었다. AI가 수학 커뮤니티 토론에 깊이 관여하면서 '누가 진짜 사람인가'를 판별하기 어려워진 상황을 보여준다는 메타적 관찰이다.
- 'P≠NP 문제도 이런 식으로 도전하는 사람이 있을지 궁금하다'는 댓글이 있었고, '일반인에게는 이게 무슨 의미인가'라는 실용적인 질문도 제기됐다. 이는 이런 연구가 아직 전문가 커뮤니티 내부의 이야기로 머물고 있음을 반영한다.
How to Apply
- 수학적 증명이나 알고리즘 정확성 검증이 필요한 경우, LLM으로 증명 아이디어 초안을 생성한 뒤 Lean 또는 Coq 같은 증명 보조 도구로 검증하는 2단계 파이프라인을 구성하면 오류를 기계적으로 확인할 수 있다.
- LLM 단독으로 복잡한 수학 문제를 풀리려 하지 말고, 도메인 전문가(또는 전문적 프롬프트)가 방향을 제시하고 LLM이 후보 경로를 탐색하는 역할 분담 구조를 설계하면 훨씬 신뢰할 수 있는 결과를 얻을 수 있다.
- AlphaGo 스타일 RL + 형식 증명 도구 조합에 관심 있다면, DeepMind의 AlphaProof나 관련 논문을 레퍼런스로 삼아 Lean 환경에서 강화학습 에이전트를 실험해볼 수 있다. 이 분야는 현재 빠르게 발전 중이다.
Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.