目前,大模型对齐方法通常分为两类:微调和测试时对齐。在微调方法中,基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)尤其有效。 RLHF 通过训练一个奖励模型(RM, Reward ...