Large Audio Language Models에서 Paralinguistic Awareness 되살리기
Resurfacing Paralinguistic Awareness in Large Audio Language Models
TL;DR Highlight
음성 AI가 목소리에서 나이·성별·감정을 인식해 아이와 어른에게 다른 대답을 하도록 만드는 fine-tuning 기법
Who Should Read
음성 기반 AI 어시스턴트를 개발하면서 사용자 맥락(어린이 vs 성인, 감정 상태)에 따라 응답을 다르게 만들고 싶은 ML 엔지니어. 특히 Qwen2.5-Omni나 Kimi-Audio 같은 Large Audio Language Model을 fine-tuning하려는 개발자.
Core Mechanics
- 현재 Qwen2.5-Omni, Kimi-Audio 같은 오디오 LLM은 목소리의 paralinguistic 신호(나이·성별·감정)를 거의 무시하고 내용만 보고 대답함 — PA-score가 거의 0에 가까움
- 레이어 분석 결과: 초반 레이어(0-6)는 paralinguistic 신호가 강하고, 중간 레이어(7-14)는 semantic 이해를 담당하며, 7번 레이어에서 정보 전환이 일어남
- 전체 레이어 fine-tuning(0-27) 대신 paralinguistic+semantic 레이어만(0-14) 학습시키는 selective-layer fine-tuning이 오히려 더 좋은 성능을 냄
- 보조 분류 헤드 ADCH(레이어 14 출력으로 paralinguistic 속성을 예측)를 추가하면 특히 감정 인식이 크게 향상됨
- 어린이 안전 문제: 원본 모델은 아이 목소리로 위험한 질문(전기 수리, 칼 사용 등)을 해도 성인과 똑같은 상세 지침을 줌. PE-FT 후 PA-rate가 7% → 97%로 개선됨
- PE-FT는 학습에 없던 새로운 주제에도 generalise됨 — 아동 안전 샘플 없이 학습했어도 아동 안전 평가에서 97% 달성
Evidence
- Qwen2.5-Omni: 원본 age PA-score 0.010 → PE-FT 후 0.945, PA-rate 50.5% → 97.3%
- Kimi-Audio: 어린이 안전 PA-rate 4.29% → PE-FT 후 98.57% (학습 데이터에 해당 샘플 없었음)
- Selective-layer(0-14) fine-tuning이 full-layer(0-27) 대비 Qwen2.5-Omni emotion PA-score 0.393 → 0.460으로 더 높음
- PE-FT는 VoiceBench 일반 능력(HS) 하락이 full-layer 대비 최소 — 72.34 vs 71.16(Qwen2.5-Omni)
How to Apply
- Qwen2.5-Omni나 Kimi-Audio를 fine-tuning할 때 전체 레이어 대신 레이어 0-14만 LoRA로 학습시키면 파라미터 효율이 높아지고 paralinguistic 인식도 좋아짐. 레이어 범위는 논문의 layer-wise 분석 파이프라인으로 본인 모델에 맞게 재탐색 가능.
- 학습 데이터 구성 시 동일한 텍스트 쿼리에 서로 다른 화자(어린이/성인, 남성/여성, 감정별)로 합성한 오디오 쌍을 만들고, 각 쌍의 정답 응답을 paralinguistic 속성에 맞게 다르게 설정하면 됨. GPT-4.1로 텍스트 샘플 생성 후 TTS로 오디오 합성하는 파이프라인 사용.
- 레이어 14 출력에 가벼운 분류 헤드(ADCH)를 추가해 카테고리(age/gender/emotion) + 속성값(child/adult 등)을 동시에 예측하는 auxiliary loss를 SFT loss에 λ=0.5로 합산하면 감정 같은 어려운 카테고리에서 추가 개선 가능. 추론 시엔 ADCH 제거.
Code Example
# PE-FT 핵심 loss 구성 예시
import torch
import torch.nn as nn
class ADCH(nn.Module):
"""Auxiliary Dual-level Classification Head"""
def __init__(self, hidden_size, num_categories=3, num_attrs_per_cat=[2, 2, 6]):
super().__init__()
# 카테고리 분류 헤드 (age / gender / emotion)
self.category_head = nn.Linear(hidden_size, num_categories)
# 속성별 분류 헤드 (child/adult, male/female, happy/sad/...)
self.attr_heads = nn.ModuleList([
nn.Linear(hidden_size, n) for n in num_attrs_per_cat
])
def forward(self, h_layer14, y_cate):
logits_cate = self.category_head(h_layer14)
# 각 샘플을 해당 카테고리 헤드로 라우팅
logits_attr = torch.stack([
self.attr_heads[y_cate[i]](h_layer14[i])
for i in range(len(h_layer14))
])
return logits_cate, logits_attr
def pe_ft_loss(sft_loss, logits_cate, logits_attr, y_cate, y_attr, lam=0.5):
"""PE-FT 전체 loss = SFT loss + λ * (category loss + attribute loss)"""
ce = nn.CrossEntropyLoss()
l_cate = ce(logits_cate, y_cate)
l_attr = ce(logits_attr, y_attr)
return sft_loss + lam * (l_cate + l_attr)
# LoRA 설정 시 레이어 0-14만 학습 대상으로 지정
# (예: HuggingFace PEFT 사용 시)
from peft import LoraConfig, get_peft_model
lora_config = LoraConfig(
r=16,
lora_alpha=32,
# target_modules를 레이어 0-14의 attention/ffn만 포함되도록 필터링
target_modules=[
f"model.layers.{i}.self_attn.q_proj" for i in range(15)
] + [
f"model.layers.{i}.self_attn.v_proj" for i in range(15)
],
lora_dropout=0.05,
bias="none",
)
# model = get_peft_model(base_lalm, lora_config)Terminology
Related Resources
Original Abstract (Expand)
Large Audio Language Models (LALMs) have expanded the interaction with human to speech modality, which introduces great interactive potential, due to the paralinguistic cues implicitly indicating the user context. However, building on the current content-centred paradigm, LALMs usually neglect such paralinguistic cues and respond solely based on query content. In this work, to resurface the paralinguistic awareness in LALMs, we introduce five diverse layer-wise analyses to jointly identify paralinguistic layers and semantic understanding layers. Based on these insights, we propose a paralinguistic-enhanced fine-tuning (PE-FT) protocol accordingly to equip LALMs with paralinguistic-aware capabilities, including (1) selective-layer fine-tuning, and (2) an auxiliary dual-level classification head. Our experiments demonstrate that PE-FT protocol efficiently and effectively resurfaces the paralinguistic awareness, even surpassing the performance of the all-layer fine-tuning strategy.