ALIGNBEAM: Cross-Vocabulary Logit Mixing을 통한 Inference-Time Safety Alignment 전이
ALIGNBEAM : Inference-Time Alignment Transfer via Cross-Vocabulary Logit Mixing
TL;DR Highlight
도메인 파인튜닝으로 망가진 LLM 안전성을, 재학습 없이 추론 시점에 작은 안전 모델에서 빌려와 복구하는 방법.
Who Should Read
의료·금융 등 도메인 특화 LLM을 운영 중인데 안전성 저하가 걱정되는 ML 엔지니어. 파인튜닝 후 모델이 유해 요청에 응해버리는 문제를 inference 단계에서 해결하고 싶은 개발자.
Core Mechanics
- 도메인 SFT(지도 학습 파인튜닝)는 안전성을 심각하게 훼손함. MedLlama, Finance-Llama 등은 도메인 언어로 포장된 유해 요청에 쉽게 응하고, 시스템 프롬프트만으로는 안전성 회복이 안 됨 (Llama-3.1-8B 기준 시스템 프롬프트 적용 시 거부율 오히려 14.3%로 하락).
- 핵심 아이디어는 'Text Bridge': 안전 앵커 모델(Qwen2.5-3B-Instruct)의 상위 예측 토큰을 텍스트로 디코딩한 뒤 대상 모델의 토크나이저로 재인코딩해서, 어휘(vocabulary)가 달라도 확률 분포를 혼합할 수 있게 함.
- 3단계 파이프라인으로 작동: Phase 1(앵커 분포로 K개 beam 시작) → Phase 2(N 스텝 동안 혼합 디코딩) → Phase 3(대상 모델이 이어서 생성, 작은 LLM judge가 가장 안전한 beam 선택).
- 안전성은 초반 토큰에 집중됨. 딱 3 스텝만 혼합해도 HB+AB 안전 이득의 +61.9 pp를 확보하고, N=6 이상으로 깊이 늘려봤자 추가 이득은 3.9 pp에 불과함.
- α(혼합 비율), N(혼합 깊이), K(beam 수) 세 파라미터 모두 재학습 없이 배포 시점에 조절 가능. K=1이면 속도 우선, K=3이면 안전성 우선 모드.
- 어휘가 다른 크로스 패밀리 모델 간에도 작동하는 최초의 logit mixing 방법. 기존 SafeDecoding, Proxy Tuning 등은 같은 vocabulary를 공유해야만 가능했음.
Evidence
- AdvBench 거부율: 5개 모델 평균 38.1% → 91.5% (+53.4 pp), HarmBench-Standard 25.9% → 76.4% (+50.5 pp) 향상.
- 태스크 정확도 손실은 최소: GSM8K(DeepSeek-Math-7B-Instruct) 77.0% → 76.6% (−0.4 pp), MedQA(MedLlama-3-8B) 13.1% → 12.7% (−0.4 pp).
- LlamaGuard 대비 benign 과잉거부율이 낮음: OR-Bench-Hard에서 LlamaGuard 34.5% vs ALIGNBEAM 22.3%, JBB-Benign에서 38-39% vs 26.0%.
- Llama-3.1-70B 스케일에서도 검증됨: AdvBench 16.4% → 87.3% (+70.9 pp), 앵커(3B)가 드래프트(70B)보다 23배 작아도 안전성 전이 성공.
How to Apply
- 도메인 파인튜닝된 모델(의료, 금융 등)을 배포할 때, Qwen2.5-3B-Instruct 같은 작은 안전 앵커를 사이드카로 띄우고 ALIGNBEAM을 inference 미들웨어로 적용하면 재학습 없이 안전성을 복구할 수 있음. K=1로 시작하면 약 2배 레이턴시에 안전 이득의 80%를 얻을 수 있음.
- LoRA로 도메인 어댑터만 붙인 모델도 안전성이 저하되는데, 이 경우에도 ALIGNBEAM을 inference 시점에 적용해서 복구 가능. 논문의 wealth-management LoRA 실험에서 HB-Ctx 100%, Sorry-Bench 85%로 베이스 instruct 모델 수준을 회복 또는 초과함.
- α와 K 파라미터로 안전성-유틸리티 트레이드오프를 실시간 조절 가능. 일반 사용자 트래픽엔 α=0.5, K=1, 고위험 쿼리가 예상되는 맥락에선 α=0.75, K=3으로 런타임에 전환하는 식으로 활용.
Code Example
Terminology
관련 논문
iPad가 Tailscale에 연결되어 있었다: WebRTC 디버깅 이야기
WebRTC 데이터 채널에서 iPad만 응답을 못 받는 희귀 버그를 추적한 결과, webrtc-rs의 하드코딩된 MTU 상수와 Tailscale의 IPv6 Fragment 패킷 드롭이 동시에 작용한 복합 버그였다는 2주간의 디버깅 실화.
LLM이 고전적인 Hyperparameter 최적화 알고리즘을 이길 수 있을까?
LLM 기반 하이퍼파라미터 최적화 에이전트와 CMA-ES, TPE 같은 고전 알고리즘을 직접 비교한 연구로, LLM 단독으로는 고전 방법을 이기지 못하지만 두 방법을 합친 하이브리드 'Centaur'가 최고 성능을 낸다는 결론이 나왔다.
눈이 보는 것, LLM이 놓치는 것: Human Perception을 이용한 Adversarial Text Attack
Bold, 하이라이트, 공백 배치 같은 타이포그래피 트릭으로 GPT-4o, Llama Guard 등 10개 콘텐츠 모더레이션 시스템을 99% 이상 우회할 수 있다.
Claude가 rsync의 버그를 증가시켰는가? 데이터 분석
rsync 프로젝트에 Claude AI가 도입된 이후 버그가 늘었다는 소셜 미디어 주장을 실제 데이터와 통계 분석으로 검증한 글로, 결론적으로 Claude 도입 후 릴리즈가 역사적 분포에서 유독 버그가 많다는 통계적 근거는 없었다.
취약한 앱을 직접 만들고 LLM이 해킹할 수 있는지 $1,500 써서 실험해봤다
Firebase 취약점을 가진 앱을 직접 제작하고 GPT-5.5, Claude, Deepseek 등 주요 LLM이 자율적으로 해킹할 수 있는지 실험한 결과, GPT-5.5가 70% 성공률로 압도적이었고 Claude는 보안 거부 정책 때문에 능력과 무관하게 낮은 점수를 기록했다.
Clustered Self-Assessment: LLM 불확실성 정량화를 위한 간단하고 효과적인 방법
LLM이 여러 답변을 의미 단위로 묶어 객관식으로 만들고 스스로 채점해서 '이 답 얼마나 확신해?'를 수치로 뽑아내는 기법.
Related Resources
Original Abstract (Expand)
Domain fine-tuning degrades the safety of large language models: fine-tuned specialists readily comply with harmful prompts framed in domain language. Existing inference-time defenses that mix logits from a safe anchor model require both models to share a vocabulary, which rules them out for the cross-family specialists where safety is most degraded. We present ALIGNBEAM, a training-free method that lifts this restriction by translating anchor logits into the target model's vocabulary token-by-token at each decoding step; a small LLM judge then selects the safest among K candidate continuations. No weights are changed, and the safety-utility trade-off can be tuned at deployment without retraining. Across both cross-vocabulary and same-vocabulary evaluation pairs, ALIGNBEAM substantially raises refusal on adversarial benchmarks while keeping task accuracy and inference overhead within practical bounds. The results show that safety alignment can be transferred between model families at inference time, without touching either model's weights.