로딩 중...

Triplet이 Pair보다 낫다: LLM을 위한 안정적이고 효과적인 Self-Play Fine-Tuning | AI Paper Digest