Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria
cs.AI
Prompt 技術
自動評分標準 (Auto-Rubric) 生成作為獎勵信號:這是一種基於RLHF(Reinforcement Learning from Human Feedback)的進階方法。它不直接使用單一標量或成對比較作為獎勵,而是透過提示LLM生成多維度、組成的明確評分標準(rubrics),然後將這些標準作為獎勵信號來引導多模態生成模型的訓練。這使得模型能夠學習更細緻、更符合人類判斷結構的偏好。