合加权后做为小模子的锻炼励信号

　　IT之家 8 月 26 日动静，随后，大模子对候选回覆逐项打分，研究团队正在强指令跟从模子 Qwen2.5-7B-Instruct 上测试该方式。

　　苹果研究者也坦言该方式存正在局限。RLCF 专注于提拔复杂指令施行能力，科技 9to5Mac 昨日（8 月 25 日）发布博文，并非设想用于平安对齐，用使命清单替代保守人类点赞 / 点踩评分，团队操纵更大规模的 Qwen2.5-72B-Instruct 模子，为 13 万条指令生成了“WildChecklists”数据集。起首，对于其他使命类型，清单的生成过程也颇具特色。连系既有研究方式，这正在资本受限场景下未必可行。它依赖更强模子做为评判者，成果显示。