Latent Color Subspace: FLUX.1의 VAE 잠재 공간에서 발견한 색상 구조

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Mar 12, 2026•Mateusz Pach, Jessica Bader, Quentin Bouniot +2•View PDF

TL;DR Highlight

FLUX.1 이미지 생성 모델의 내부 잠재 공간에서 HSL 색상 구조를 발견하고, 추가 학습 없이 생성 중인 이미지의 색상을 직접 제어하는 방법

Who Should Read

FLUX나 Stable Diffusion 기반 이미지 생성 파이프라인에서 색상 제어 기능을 구현하려는 ML 엔지니어. ControlNet이나 IP-Adapter 없이 더 가볍게 색상을 바꾸고 싶은 개발자.

Core Mechanics

FLUX.1의 VAE 잠재 공간을 PCA로 분석했더니 색상 정보가 딱 3차원 subspace에 몰려 있고, 이게 Hue-Saturation-Lightness(HSL) 구조와 거의 동일함
추가 학습 전혀 없이 이 3D 공간(LCS)에서 좌표를 수학적으로 조작하는 것만으로 생성 중인 이미지 색상을 바꿀 수 있음
생성 도중 중간 타임스텝에서 VAE 디코더(5천만 파라미터) 없이도 최종 이미지 색상을 미리 예측 가능
semantic segmentation과 결합하면 전체 이미지가 아닌 특정 오브젝트만 색상 변경 가능
개입 타이밍에 따라 두 가지 전략(Type I: LCS 직접 이동, Type II: HSL 공간에서 이동)을 보간해서 쓰는 게 최적
프롬프트에 색상을 명시하는 것보다 색상 정확도는 높고(∆E00=9 vs 22), 원본 이미지 구조 보존도 더 잘됨

Evidence

GenEval 색상 정확도: 색상 미지정 프롬프트 9% → LCS 개입 73%, 색상 명시 프롬프트 79%에 근접
PRECISE (PLAIN) 데이터셋에서 ∆E00=9, ∆H=11°, ∆L=3% 달성 (프롬프트 기반은 ∆E00=22, ∆H=38°, ∆L=12%)
구조 보존 지표: IOU 0.78(ours local) vs 0.60(prompt), SSIM 0.59 vs 0.46, LPIPS 0.35 vs 0.49
중간 타임스텝(t≤20)에서 LCS 기반 색상 예측이 VAE 디코더 직접 디코딩보다 더 정확 (평균 ∆E00 기준)

How to Apply

FLUX.1로 이미지 생성 시 색상을 제어해야 한다면: 생성 루프 타임스텝 8~10 사이에 LCS 좌표를 추출하고, 타겟 HSL 색상으로 좌표를 이동시킨 뒤 다시 잠재 공간에 주입하면 됨. GitHub 코드에 구현체 있음
특정 오브젝트만 색상 바꾸고 싶다면: DiT 18번 레이어의 text-image cross-attention에서 segmentation 마스크를 뽑아서 해당 패치들만 LCS 조작 적용
생성 중간에 색상 미리보기가 필요한 경우: VAE 디코더 실행 없이 LCS 투영만으로 현재 타임스텝의 색상 예측 가능 → 실시간 프리뷰나 색상 검증 파이프라인에 활용

Code Example

snippet

# GitHub: https://github.com/ExplainableML/LCS

# 핵심 아이디어 의사코드
import torch

# 1. VAE 잠재 벡터에서 LCS(Latent Color Subspace) 추출
# B: PCA로 구한 상위 3개 주성분 (d x 3)
# mu: 잠재 벡터 평균
def project_to_lcs(z, B, mu):
    # z: [L, d] 패치별 잠재 벡터
    z_centered = z - mu
    c = z_centered @ B  # [L, 3] - LCS 좌표
    return c

# 2. 타임스텝 정규화 (각 타임스텝별 shift/scale 통계 적용)
def normalize_to_t50(c, alpha_t, beta_t, alpha_50, beta_50):
    c_hat = (c - alpha_t) / beta_t * beta_50 + alpha_50
    return c_hat

# 3. Type I 개입: LCS에서 직접 타겟 색상으로 이동
def type1_intervention(c_hat, target_hsl, E_fn):
    c_mean = c_hat.mean(dim=0)  # 현재 평균 색상
    c_target = E_fn(*target_hsl)  # HSL → LCS 인코딩
    c_shifted = c_hat + (c_target - c_mean)  # 모든 패치 이동
    return c_shifted

# 4. 개입 후 다시 잠재 공간으로 복원
def lcs_to_latent(c_star, z_orig, B, mu):
    # c_star를 잠재 공간으로 역투영
    z_color = c_star @ B.T + mu
    # 색상 성분만 교체 (나머지 구조 보존)
    z_new = z_orig - (z_orig - mu) @ B @ B.T + c_star @ B.T
    return z_new

# 생성 루프 내 적용 예시
# for t in generation_steps:
#   if t == 9:  # 최적 타임스텝
#       c = project_to_lcs(z_t, B, mu)
#       c_hat = normalize_to_t50(c, alpha[t], beta[t], alpha[50], beta[50])
#       c_hat_prime = type1_intervention(c_hat, target_hsl=(0.6, 1.0, 0.5), E_fn=encode_hsl)
#       c_star = denormalize(c_hat_prime, alpha[t], beta[t], alpha[50], beta[50])
#       z_t = lcs_to_latent(c_star, z_t, B, mu)

Terminology

VAE이미지를 압축된 숫자 벡터(잠재 공간)로 변환하는 인코더-디코더 쌍. JPEG 압축과 비슷하지만 AI가 학습한 방식으로 압축함.

잠재 공간 (Latent Space)VAE가 이미지를 압축해서 저장하는 고차원 숫자 공간. 이미지의 의미 정보가 좌표로 인코딩되어 있음.

Flow Matching노이즈에서 이미지로 가는 경로를 직선으로 학습하는 이미지 생성 방식. FLUX.1이 사용하는 방법으로, 기존 Diffusion보다 빠름.

PCA고차원 데이터에서 가장 중요한 방향(축)을 찾아내는 통계 기법. 여기서는 수천 차원의 잠재 벡터에서 색상 관련 3개 축을 발견하는 데 사용.

HSL색상(Hue), 채도(Saturation), 밝기(Lightness)로 색을 표현하는 방식. 포토샵에서 색조/채도 슬라이더와 같은 개념.

CIEDE2000 (∆E00)두 색깔이 사람 눈에 얼마나 다르게 보이는지 측정하는 표준 지표. 값이 낮을수록 타겟 색상에 가깝게 제어된 것.

ControlNet이미지 생성 모델에 추가로 붙여서 포즈나 엣지 같은 조건을 제어하는 모듈. 별도 학습이 필요한 무거운 방식.

Related Resources

Original Abstract (Expand)

Text-to-image generation models have advanced rapidly, yet achieving fine-grained control over generated images remains difficult, largely due to limited understanding of how semantic information is encoded. We develop an interpretation of the color representation in the Variational Autoencoder latent space of FLUX.1 [Dev], revealing a structure reflecting Hue, Saturation, and Lightness. We verify our Latent Color Subspace (LCS) interpretation by demonstrating that it can both predict and explicitly control color, introducing a fully training-free method in FLUX based solely on closed-form latent-space manipulation. Code is available at https://github.com/ExplainableML/LCS.