Large Audio Language Models에서 Paralinguistic Awareness 되살리기

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Mar 12, 2026•Hao Yang, Minghan Wang, Tongtong Wu +3•View PDF

TL;DR Highlight

음성 AI가 목소리에서 나이·성별·감정을 인식해 아이와 어른에게 다른 대답을 하도록 만드는 fine-tuning 기법

Who Should Read

음성 기반 AI 어시스턴트를 개발하면서 사용자 맥락(어린이 vs 성인, 감정 상태)에 따라 응답을 다르게 만들고 싶은 ML 엔지니어. 특히 Qwen2.5-Omni나 Kimi-Audio 같은 Large Audio Language Model을 fine-tuning하려는 개발자.

Core Mechanics

현재 Qwen2.5-Omni, Kimi-Audio 같은 오디오 LLM은 목소리의 paralinguistic 신호(나이·성별·감정)를 거의 무시하고 내용만 보고 대답함 — PA-score가 거의 0에 가까움
레이어 분석 결과: 초반 레이어(0-6)는 paralinguistic 신호가 강하고, 중간 레이어(7-14)는 semantic 이해를 담당하며, 7번 레이어에서 정보 전환이 일어남
전체 레이어 fine-tuning(0-27) 대신 paralinguistic+semantic 레이어만(0-14) 학습시키는 selective-layer fine-tuning이 오히려 더 좋은 성능을 냄
보조 분류 헤드 ADCH(레이어 14 출력으로 paralinguistic 속성을 예측)를 추가하면 특히 감정 인식이 크게 향상됨
어린이 안전 문제: 원본 모델은 아이 목소리로 위험한 질문(전기 수리, 칼 사용 등)을 해도 성인과 똑같은 상세 지침을 줌. PE-FT 후 PA-rate가 7% → 97%로 개선됨
PE-FT는 학습에 없던 새로운 주제에도 generalise됨 — 아동 안전 샘플 없이 학습했어도 아동 안전 평가에서 97% 달성

Evidence

Qwen2.5-Omni: 원본 age PA-score 0.010 → PE-FT 후 0.945, PA-rate 50.5% → 97.3%
Kimi-Audio: 어린이 안전 PA-rate 4.29% → PE-FT 후 98.57% (학습 데이터에 해당 샘플 없었음)
Selective-layer(0-14) fine-tuning이 full-layer(0-27) 대비 Qwen2.5-Omni emotion PA-score 0.393 → 0.460으로 더 높음
PE-FT는 VoiceBench 일반 능력(HS) 하락이 full-layer 대비 최소 — 72.34 vs 71.16(Qwen2.5-Omni)

How to Apply

Qwen2.5-Omni나 Kimi-Audio를 fine-tuning할 때 전체 레이어 대신 레이어 0-14만 LoRA로 학습시키면 파라미터 효율이 높아지고 paralinguistic 인식도 좋아짐. 레이어 범위는 논문의 layer-wise 분석 파이프라인으로 본인 모델에 맞게 재탐색 가능.
학습 데이터 구성 시 동일한 텍스트 쿼리에 서로 다른 화자(어린이/성인, 남성/여성, 감정별)로 합성한 오디오 쌍을 만들고, 각 쌍의 정답 응답을 paralinguistic 속성에 맞게 다르게 설정하면 됨. GPT-4.1로 텍스트 샘플 생성 후 TTS로 오디오 합성하는 파이프라인 사용.
레이어 14 출력에 가벼운 분류 헤드(ADCH)를 추가해 카테고리(age/gender/emotion) + 속성값(child/adult 등)을 동시에 예측하는 auxiliary loss를 SFT loss에 λ=0.5로 합산하면 감정 같은 어려운 카테고리에서 추가 개선 가능. 추론 시엔 ADCH 제거.

Code Example

snippet

# PE-FT 핵심 loss 구성 예시
import torch
import torch.nn as nn

class ADCH(nn.Module):
    """Auxiliary Dual-level Classification Head"""
    def __init__(self, hidden_size, num_categories=3, num_attrs_per_cat=[2, 2, 6]):
        super().__init__()
        # 카테고리 분류 헤드 (age / gender / emotion)
        self.category_head = nn.Linear(hidden_size, num_categories)
        # 속성별 분류 헤드 (child/adult, male/female, happy/sad/...)
        self.attr_heads = nn.ModuleList([
            nn.Linear(hidden_size, n) for n in num_attrs_per_cat
        ])
    
    def forward(self, h_layer14, y_cate):
        logits_cate = self.category_head(h_layer14)
        # 각 샘플을 해당 카테고리 헤드로 라우팅
        logits_attr = torch.stack([
            self.attr_heads[y_cate[i]](h_layer14[i])
            for i in range(len(h_layer14))
        ])
        return logits_cate, logits_attr


def pe_ft_loss(sft_loss, logits_cate, logits_attr, y_cate, y_attr, lam=0.5):
    """PE-FT 전체 loss = SFT loss + λ * (category loss + attribute loss)"""
    ce = nn.CrossEntropyLoss()
    l_cate = ce(logits_cate, y_cate)
    l_attr = ce(logits_attr, y_attr)
    return sft_loss + lam * (l_cate + l_attr)


# LoRA 설정 시 레이어 0-14만 학습 대상으로 지정
# (예: HuggingFace PEFT 사용 시)
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    # target_modules를 레이어 0-14의 attention/ffn만 포함되도록 필터링
    target_modules=[
        f"model.layers.{i}.self_attn.q_proj" for i in range(15)
    ] + [
        f"model.layers.{i}.self_attn.v_proj" for i in range(15)
    ],
    lora_dropout=0.05,
    bias="none",
)
# model = get_peft_model(base_lalm, lora_config)

Terminology

Paralinguistic cues말의 내용이 아니라 '어떻게 말하는가'에 담긴 정보. 목소리 톤, 나이, 감정, 성별 같은 것들. 예: '비가 또 오네'라는 말을 기쁘게 하느냐 슬프게 하느냐에 따라 의미가 달라짐.

LALM (Large Audio Language Model)텍스트 LLM에 오디오 이해 능력을 추가한 모델. Qwen2.5-Omni, Kimi-Audio처럼 음성을 직접 입력받아 대화할 수 있음.

Layer-wise analysis딥러닝 모델의 각 레이어가 어떤 정보를 담고 있는지 분석하는 기법. 각 층을 X-ray처럼 들여다보는 것.

Linear probing특정 레이어의 출력에 간단한 선형 분류기를 붙여서 그 레이어가 원하는 정보를 얼마나 담고 있는지 측정하는 방법. 레이어 능력 측정용 온도계 같은 것.

SFT (Supervised Fine-Tuning)정답 예시를 보여주고 그대로 따라하게 학습시키는 방법. 학교에서 예제 풀이 보여주고 비슷한 문제 풀게 하는 것과 같음.

LoRA (Low-Rank Adaptation)모델 전체를 다시 학습하지 않고 아주 작은 추가 파라미터만 학습하는 효율적 fine-tuning 기법. 모델에 얇은 어댑터를 끼우는 것.

t-SNE고차원 데이터를 2D 평면에 시각화하는 기법. 비슷한 것끼리 가깝게 찍히도록 압축해서 클러스터를 눈으로 볼 수 있게 함.

PA-score / PA-rate이 논문에서 새로 제안한 평가 지표. PA-score는 모델이 paralinguistic 속성에 맞게 응답하면 +1, 무시하면 0, 틀리면 -1을 줘서 평균낸 것. PA-rate는 정확히 반응한 비율.

Related Resources

PE-FT 코드 및 데이터 (GitHub)

Original Abstract (Expand)

Large Audio Language Models (LALMs) have expanded the interaction with human to speech modality, which introduces great interactive potential, due to the paralinguistic cues implicitly indicating the user context. However, building on the current content-centred paradigm, LALMs usually neglect such paralinguistic cues and respond solely based on query content. In this work, to resurface the paralinguistic awareness in LALMs, we introduce five diverse layer-wise analyses to jointly identify paralinguistic layers and semantic understanding layers. Based on these insights, we propose a paralinguistic-enhanced fine-tuning (PE-FT) protocol accordingly to equip LALMs with paralinguistic-aware capabilities, including (1) selective-layer fine-tuning, and (2) an auxiliary dual-level classification head. Our experiments demonstrate that PE-FT protocol efficiently and effectively resurfaces the paralinguistic awareness, even surpassing the performance of the all-layer fine-tuning strategy.