Ultrafast machine learning on FPGAs via Kolmogorov-Arnold Networks

TL;DR Highlight

기존 MLP 대신 KAN 아키텍처를 FPGA에 최적화해 나노초 단위 추론과 온라인 학습을 가능하게 한 석사 논문 소개. FPGA 2026 Best Paper를 수상했고 고빈도 거래처럼 초저지연이 필수인 환경에서 주목할 만하다.

Who Should Read

초저지연(나노초~마이크로초) 추론이 필요한 엣지 컴퓨팅이나 금융 시스템 개발자, 또는 FPGA 기반 ML 가속기에 관심 있는 하드웨어/임베디드 엔지니어.

Core Mechanics

GPU는 대규모 배치 연산에 최적화되어 있지만 명령어 스케줄링, 동적 메모리 접근 등 오버헤드 때문에 나노초 단위 초저지연이 필요한 워크로드에는 적합하지 않다. 이런 경우엔 FPGA 같은 커스텀 하드웨어 가속기가 더 낫다.
FPGA는 LUT(Lookup Table, 입력 조합마다 출력값을 미리 저장해두는 작은 회로), 플립플롭(FF, 상태 저장 소자) 등으로 구성된 재구성 가능한 디지털 로직 소자다. 뉴럴넷을 프로세서 위에서 실행하는 '명령어'로 구현하는 게 아니라 디지털 회로 자체로 구현하기 때문에 극도로 빠른 추론이 가능하다.
FPGA에서 연산하려면 실수값을 비트열로 변환하는 양자화(Quantization)가 필요하다. 고정소수점 양자화(Fixed-point Quantization)는 소수점 위치를 고정해 2진수로 숫자를 표현하는 방식이며, 예를 들어 8비트에 소수점 이하 4비트를 쓰면 -8에서 7.9375 사이를 0.0625 간격으로 표현할 수 있다.
LUT-NN(Lookup Table Neural Network)은 FPGA의 LUT를 그대로 뉴럴넷의 기본 연산 단위로 사용하는 방식이다. 학습 가능한 이진 함수를 LUT 형태로 직접 표현해 하드웨어 효율을 극대화한다.
KAN(Kolmogorov-Arnold Networks)은 전통적인 MLP(Multi-Layer Perceptron)와 달리 노드가 아닌 엣지(연결선)에 학습 가능한 스플라인(Spline) 함수를 배치하는 아키텍처다. 이 구조가 FPGA의 LUT 기반 연산과 잘 맞아 효율적인 하드웨어 구현이 가능하다.
첫 번째 논문 KANELÉ(FPGA 2026 Best Paper)는 KAN을 LUT 기반으로 효율적으로 평가(Evaluation)하는 하드웨어 아키텍처를 다룬다. 두 번째 논문(ICML 2026)은 스플라인의 지역성(Spline Locality) 특성을 활용해 FPGA 위에서 온라인 학습(Online Learning, 데이터가 실시간으로 들어오면서 모델이 갱신되는 방식)까지 초고속으로 수행하는 방법을 제안한다.
이 연구는 석사 논문을 기반으로 한 실제 구현 결과물이며, 두 편 모두 Duc Hoang과 공동 1저자(equal contribution)로 작성되었고 Philip C. Harris가 지도를 맡았다.

Evidence

LLM 추론 가속에 사용할 수 있냐는 질문에 대해, 댓글 작성자가 3.28M 파라미터짜리 작은 모델로 100,000 tokens/s를 목표로 실험해봤는데 이미 이 연구의 적용 범위보다 한 자릿수 이상 크다며 사실상 불가능하다는 경험을 공유했다. 이 연구는 처리량(Throughput)보다 지연시간(Latency) 최소화에 집중한 것이라는 분석이다.
이 접근법은 결국 아주 작은 모델이거나 아주 큰 FPGA가 있어야 의미가 있는 게 아니냐는 의문이 제기됐다. 서브 마이크로초 지연이 필요한 단순한 ML 태스크라면 의미가 있지만 그렇지 않으면 실용성이 제한적이라는 시각이다.
KAN이 실용적인 하드웨어 분야에서 자리를 잡아가고 있다는 점에서 긍정적으로 평가하는 반응도 있었다. 이론적 아이디어였던 KAN이 실제 하드웨어 최적화 논문으로 이어진 것을 반기는 분위기다.
저자가 이 연구 결과로 고빈도 거래(HFT, High-Frequency Trading) 회사에 채용될 것이라는 댓글이 달렸다. 나노초 단위 지연이 수익과 직결되는 HFT 분야가 이 연구의 가장 유력한 적용처임을 시사하는 반응이다.
원문 포스트가 일시적으로 내려가는 일이 있었고, 한 사용자가 Web Archive 링크(https://web.archive.org/web/20260609200156/https://aarushgup...)를 공유했다.

How to Apply

나노초~마이크로초 단위 추론이 필요한 시스템(예: 고빈도 거래 신호 처리, 입자 물리 트리거 시스템, 네트워크 패킷 분류)을 개발 중이라면, GPU/CPU 대신 FPGA + KAN 아키텍처 조합을 검토하고 두 논문(KANELÉ, arXiv:2602.02056)의 벤치마크 수치를 기준으로 요구사항 충족 여부를 먼저 확인해라.
실시간으로 데이터가 들어오면서 모델이 즉시 업데이트되어야 하는 온라인 학습 시나리오(예: 센서 데이터 이상 탐지, 실시간 제어 시스템)라면, ICML 2026 논문의 스플라인 지역성 기반 온라인 학습 방법론을 참고해 FPGA 위에서 학습과 추론을 동시에 처리하는 구조를 설계할 수 있다.
LLM처럼 수백만 파라미터 이상의 대형 모델 추론 가속에는 이 접근법이 맞지 않는다. 모델 크기가 작고(수천~수만 파라미터), 지연시간 요구사항이 극단적으로 엄격한 태스크인지 먼저 확인한 후에 적용 여부를 결정해야 한다.

Terminology

FPGA현장 프로그래머블 게이트 어레이(Field-Programmable Gate Array). 공장 출하 후에도 회로 구조를 다시 프로그래밍할 수 있는 반도체 칩으로, GPU처럼 범용 프로세서가 아니라 특정 연산을 회로 자체로 수행해 극도로 빠른 처리가 가능하다.

KANKolmogorov-Arnold Networks. 2024년 제안된 뉴럴넷 아키텍처로, 기존 MLP처럼 노드에 활성화 함수를 두는 게 아니라 연결선(엣지)마다 학습 가능한 함수를 배치하는 방식이다.

LUTLookup Table(룩업 테이블). 모든 입력 조합에 대한 출력값을 미리 표에 저장해두고, 실제 연산 없이 표를 조회만 해서 결과를 내는 방식. FPGA의 핵심 구성 요소다.

Fixed-point Quantization고정소수점 양자화. 실수값을 제한된 비트 수의 2진수로 변환할 때 소수점 위치를 고정하는 방식. 부동소수점(float)보다 하드웨어 구현이 단순하고 빠르지만 표현 범위와 정밀도가 제한된다.

Online Learning온라인 학습. 모든 데이터를 모아서 한꺼번에 학습하는 배치 학습과 달리, 데이터가 실시간으로 들어오는 대로 모델 파라미터를 즉시 업데이트하는 학습 방식이다.

Spline스플라인. 여러 구간을 부드럽게 이어 붙인 다항식 함수. KAN에서는 각 엣지의 학습 가능한 함수를 B-spline으로 표현하며, 구간별 지역성(Locality) 덕분에 FPGA에서 효율적으로 구현할 수 있다.