Ultrafast machine learning on FPGAs via Kolmogorov-Arnold Networks
TL;DR Highlight
기존 MLP 대신 KAN 아키텍처를 FPGA에 최적화해 나노초 단위 추론과 온라인 학습을 가능하게 한 석사 논문 소개. FPGA 2026 Best Paper를 수상했고 고빈도 거래처럼 초저지연이 필수인 환경에서 주목할 만하다.
Who Should Read
초저지연(나노초~마이크로초) 추론이 필요한 엣지 컴퓨팅이나 금융 시스템 개발자, 또는 FPGA 기반 ML 가속기에 관심 있는 하드웨어/임베디드 엔지니어.
Core Mechanics
- GPU는 대규모 배치 연산에 최적화되어 있지만 명령어 스케줄링, 동적 메모리 접근 등 오버헤드 때문에 나노초 단위 초저지연이 필요한 워크로드에는 적합하지 않다. 이런 경우엔 FPGA 같은 커스텀 하드웨어 가속기가 더 낫다.
- FPGA는 LUT(Lookup Table, 입력 조합마다 출력값을 미리 저장해두는 작은 회로), 플립플롭(FF, 상태 저장 소자) 등으로 구성된 재구성 가능한 디지털 로직 소자다. 뉴럴넷을 프로세서 위에서 실행하는 '명령어'로 구현하는 게 아니라 디지털 회로 자체로 구현하기 때문에 극도로 빠른 추론이 가능하다.
- FPGA에서 연산하려면 실수값을 비트열로 변환하는 양자화(Quantization)가 필요하다. 고정소수점 양자화(Fixed-point Quantization)는 소수점 위치를 고정해 2진수로 숫자를 표현하는 방식이며, 예를 들어 8비트에 소수점 이하 4비트를 쓰면 -8에서 7.9375 사이를 0.0625 간격으로 표현할 수 있다.
- LUT-NN(Lookup Table Neural Network)은 FPGA의 LUT를 그대로 뉴럴넷의 기본 연산 단위로 사용하는 방식이다. 학습 가능한 이진 함수를 LUT 형태로 직접 표현해 하드웨어 효율을 극대화한다.
- KAN(Kolmogorov-Arnold Networks)은 전통적인 MLP(Multi-Layer Perceptron)와 달리 노드가 아닌 엣지(연결선)에 학습 가능한 스플라인(Spline) 함수를 배치하는 아키텍처다. 이 구조가 FPGA의 LUT 기반 연산과 잘 맞아 효율적인 하드웨어 구현이 가능하다.
- 첫 번째 논문 KANELÉ(FPGA 2026 Best Paper)는 KAN을 LUT 기반으로 효율적으로 평가(Evaluation)하는 하드웨어 아키텍처를 다룬다. 두 번째 논문(ICML 2026)은 스플라인의 지역성(Spline Locality) 특성을 활용해 FPGA 위에서 온라인 학습(Online Learning, 데이터가 실시간으로 들어오면서 모델이 갱신되는 방식)까지 초고속으로 수행하는 방법을 제안한다.
- 이 연구는 석사 논문을 기반으로 한 실제 구현 결과물이며, 두 편 모두 Duc Hoang과 공동 1저자(equal contribution)로 작성되었고 Philip C. Harris가 지도를 맡았다.
Evidence
- LLM 추론 가속에 사용할 수 있냐는 질문에 대해, 댓글 작성자가 3.28M 파라미터짜리 작은 모델로 100,000 tokens/s를 목표로 실험해봤는데 이미 이 연구의 적용 범위보다 한 자릿수 이상 크다며 사실상 불가능하다는 경험을 공유했다. 이 연구는 처리량(Throughput)보다 지연시간(Latency) 최소화에 집중한 것이라는 분석이다.
- 이 접근법은 결국 아주 작은 모델이거나 아주 큰 FPGA가 있어야 의미가 있는 게 아니냐는 의문이 제기됐다. 서브 마이크로초 지연이 필요한 단순한 ML 태스크라면 의미가 있지만 그렇지 않으면 실용성이 제한적이라는 시각이다.
- KAN이 실용적인 하드웨어 분야에서 자리를 잡아가고 있다는 점에서 긍정적으로 평가하는 반응도 있었다. 이론적 아이디어였던 KAN이 실제 하드웨어 최적화 논문으로 이어진 것을 반기는 분위기다.
- 저자가 이 연구 결과로 고빈도 거래(HFT, High-Frequency Trading) 회사에 채용될 것이라는 댓글이 달렸다. 나노초 단위 지연이 수익과 직결되는 HFT 분야가 이 연구의 가장 유력한 적용처임을 시사하는 반응이다.
- 원문 포스트가 일시적으로 내려가는 일이 있었고, 한 사용자가 Web Archive 링크(https://web.archive.org/web/20260609200156/https://aarushgup...)를 공유했다.
How to Apply
- 나노초~마이크로초 단위 추론이 필요한 시스템(예: 고빈도 거래 신호 처리, 입자 물리 트리거 시스템, 네트워크 패킷 분류)을 개발 중이라면, GPU/CPU 대신 FPGA + KAN 아키텍처 조합을 검토하고 두 논문(KANELÉ, arXiv:2602.02056)의 벤치마크 수치를 기준으로 요구사항 충족 여부를 먼저 확인해라.
- 실시간으로 데이터가 들어오면서 모델이 즉시 업데이트되어야 하는 온라인 학습 시나리오(예: 센서 데이터 이상 탐지, 실시간 제어 시스템)라면, ICML 2026 논문의 스플라인 지역성 기반 온라인 학습 방법론을 참고해 FPGA 위에서 학습과 추론을 동시에 처리하는 구조를 설계할 수 있다.
- LLM처럼 수백만 파라미터 이상의 대형 모델 추론 가속에는 이 접근법이 맞지 않는다. 모델 크기가 작고(수천~수만 파라미터), 지연시간 요구사항이 극단적으로 엄격한 태스크인지 먼저 확인한 후에 적용 여부를 결정해야 한다.
Terminology
Related Papers
Jamesob's guide to running SOTA LLMs locally
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Faster embeddings: how we rebuilt the ONNX path in Manticore
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: Near-Lossless Retrieval with 97% Storage Reduction
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Show HN: Bash4LLM+ – A lightweight, dependency-free Bash wrapper for LLM APIs
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: deterministic routing of queries between local and hosted LLM
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: Architecture, Programming, and Performance
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.