Faster embeddings: how we rebuilt the ONNX path in Manticore

TL;DR Highlight

Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.

Who Should Read

Manticore Search의 Auto Embeddings 기능을 사용 중이거나, CPU 환경에서 ONNX 모델로 임베딩을 빠르게 처리해야 하는 백엔드 또는 검색 시스템 개발자.

Core Mechanics

Manticore Search의 Auto Embeddings는 별도 모델 서비스 없이 DB가 INSERT 시점마다 직접 임베딩 모델을 실행하는 구조라, 임베딩 생성 속도가 곧 INSERT 처리량과 동일하다.
기존 경로는 Hugging Face의 순수 Rust 기반 ML 추론 런타임인 Candle 위에 SentenceTransformers를 얹은 방식이었는데, 스레드 수나 배치 크기를 아무리 올려도 5~11 docs/sec 범위를 벗어나지 못했다.
새 경로는 ONNX Runtime(MiniLM, BGE, E5 같은 오픈소스 임베딩 모델 대부분이 이미 .onnx 파일로 배포하는 표준 포맷)을 직접 백엔드로 채택했고, Manticore Search 27.1.5부터 기본 경로로 적용됐다.
같은 서버(16코어/32스레드), 같은 모델(all-MiniLM-L12-v2), 같은 가중치 기준으로 전체 스레드 × 배치 조합을 평균 낸 결과 신규 ONNX 경로는 70~230 docs/sec를 기록해 약 14배 향상됐다.
단일 클라이언트 단일 INSERT 기준 latency는 약 14ms, 8개 동시 클라이언트 기준으로도 약 56ms로 기존 Candle의 200ms 이상 대비 크게 줄었다.
최대 bulk ingest 처리량을 원한다면 클라이언트 스레드를 늘리는 것보다 단일 스레드에 batch size 32~128을 사용하는 게 유리하다. 새 백엔드가 호출 내부에서 병렬 처리를 하므로 클라이언트 쪽 fan-out은 오히려 조율 오버헤드만 늘린다. 테스트 박스 기준 peak는 1스레드 + batch=64에서 233 docs/sec였다.
성능 개선을 가져온 핵심 변경 두 가지는 intra_op_spinning(모델 내부 연산자 간 스핀 대기) 비활성화, 그리고 워커 내부에서 문서를 배치로 묶는 로직을 포기한 것이다.
API 변경은 없다. .onnx 파일을 제공하는 HuggingFace 모델을 이미 사용 중이면 자동으로 새 경로가 적용된다. 모델을 바꾸려면 FLOAT_VECTOR 필드의 MODEL_NAME 수정이 불가능해 테이블 전체 재생성은 필요 없지만, 새 컬럼을 추가해 임베딩을 재생성한 뒤 기존 컬럼을 삭제하는 방식으로 마이그레이션해야 한다.

Evidence

CPU 환경에서는 배치 inference가 항상 유리하지 않다는 의견이 있었다. CPU는 GPU와 달리 대규모 병렬 처리를 위해 설계된 것이 아니라 배치가 오히려 느려질 수 있고, 대신 AVX512_BF16 명령어를 활용하면 기사 결과 대비 2~3배 추가 성능을 얻을 수 있다는 구체적인 제안이 나왔다. OpenVINO가 Intel CPU에서 이를 잘 지원하며 ONNX 모델을 OpenVINO로 변환하는 것도 어렵지 않다는 정보도 함께 공유됐다.
all-MiniLM-L12-v2 모델이 사실상 업계 표준처럼 쓰이지만, 같은 연산량으로 더 좋은 임베딩 품질을 내는 대안 모델이 필요하다는 의견이 있었다. 더 큰 임베딩 모델에 Q4 양자화를 적용하는 방법이 있기는 하지만 ONNX와의 호환성이 불확실하다는 점도 언급됐다.
CPU 추론 속도를 높이려는 사람에게 ONNX 전환을 첫 번째로 권장한다는 경험담이 공유됐다. 이는 본문의 결론과 일치하며, 실무에서도 ONNX 전환이 효과적임을 뒷받침한다.
intra_op_spinning(스핀락) 비활성화가 핵심 개선이었다는 점에 대해, 스핀락은 '병렬 프로그래밍의 헤로인'이라는 표현과 함께 비판적인 댓글이 달렸다. 스핀락은 코어 전체를 독점한다고 선언하는 것과 같은데, 코어를 여러 프로세스가 공유하는 환경에서는 논리적으로 맞지 않으며 대부분의 경우(99%) 나쁜 선택이라는 주장이었다.

How to Apply

Manticore Search에서 Auto Embeddings를 이미 사용 중이라면 버전 27.1.5 이상으로 업그레이드하는 것만으로 별도 설정 없이 ONNX 경로가 자동 적용되어 INSERT 처리량이 대폭 향상된다.
대량 데이터 ingest가 필요한 상황이라면 클라이언트 스레드 수를 늘리는 대신 단일 스레드에 --batch-size=32~64 옵션을 주는 방식으로 피크 처리량(약 233 docs/sec)을 끌어낼 수 있다. 클라이언트 fan-out은 새 백엔드의 내부 병렬화와 충돌해 오히려 손해다.
기존 테이블에서 임베딩 모델을 교체해야 하는 경우, FLOAT_VECTOR 필드의 MODEL_NAME 직접 수정은 불가능하므로 새 모델을 가리키는 컬럼을 추가 → 해당 컬럼 임베딩 재생성 → 기존 컬럼 삭제 순서로 마이그레이션하면 테이블 전체를 재생성하지 않아도 된다.
CPU 환경에서 더 높은 추론 성능이 필요하다면 ONNX 전환 이후 추가로 OpenVINO 변환 및 AVX512_BF16 활용을 검토할 수 있다. 커뮤니티에서는 이 방법으로 ONNX Runtime 대비 2~3배 추가 속도 향상이 가능하다고 언급했다.

Terminology

ONNXOpen Neural Network Exchange의 약자로, 다양한 ML 프레임워크(PyTorch, TensorFlow 등)에서 학습한 모델을 플랫폼에 관계없이 실행할 수 있도록 표준화한 모델 파일 포맷. 마치 PDF가 다양한 환경에서 동일하게 열리는 것처럼, ONNX 파일 하나로 여러 런타임에서 추론 가능하다.

intra_op_spinningONNX Runtime 내부에서 연산자(operation) 간 다음 작업을 기다릴 때 CPU를 쉬지 않고 계속 폴링(바쁜 대기)하는 스핀 방식. 지연은 줄지만 코어를 독점 점유해 다른 스레드가 CPU를 못 쓰는 부작용이 생긴다.

Auto EmbeddingsManticore Search가 제공하는 기능으로, 별도 Python 서비스나 외부 API 없이 DB 자체가 텍스트 컬럼에 INSERT 시 자동으로 임베딩 벡터를 생성해준다.

AVX512_BF16Intel CPU가 지원하는 SIMD(한 번에 여러 데이터를 처리하는) 명령어 집합으로, BF16(16비트 부동소수점) 연산을 한 번에 512비트씩 처리해 ML 추론 속도를 크게 높인다.

fan-out하나의 요청을 여러 병렬 스레드나 프로세스로 분산시키는 패턴. 클라이언트 측 fan-out은 여러 스레드가 각자 요청을 보내는 방식인데, 이 경우 조율 오버헤드가 생긴다.

SentenceTransformersHugging Face 생태계의 Python 라이브러리로, BERT 계열 모델로 문장 단위 임베딩 벡터를 쉽게 뽑을 수 있게 해준다. 편리하지만 Rust 네이티브 런타임 대비 오버헤드가 있다.