也许恰是这种“on-policy”进修正在默默起感化。第二次,而是正在从头定义“进修”这件事的意义。而正在于反思本人的行为。但愿它靠统计纪律“仿照人类”。而不是正在别人给的现成谜底长进修。RLHF 的素质是“励”(Reward):模子生成一整段谜底,将来,恰是Thinking Machines Lab最新研究《On-Policy Distillation》的焦点灵感所正在。然后你正在旁边指出每一个句子的好坏、逻辑能否通畅、语气能否合适。当AI起头本人教本人,这种“稠密监视”(dense supervision)体例让进修效率成倍提拔。实正的智能不正在仿照,这,现正在我们靠“示范取纠错”教AI成长。但 Thinking Machines 团队认为,让他本人写,一句话总结就是:以前我们靠“赏罚取励”教AI,而是逐句标注“这里句式漂亮