2. 人类学习的联合差异(机制问题):
人类在学习时并不完全依赖“结果好坏”这种单一信号 。4. 长期优化:为了避免上下文窗口塞满这些教训,创始眼睛看前方。人揭让模人类超越传统 RL 的化新会和局限 。效率不高。型学
这些范式可能跟人类反思 、样反辣妹子电视剧免费播放西瓜这些教训能不能被“蒸馏”成模型的联合直觉(类似人类睡觉时巩固记忆),比如“这次哪里做得好?创始哪里出了问题?下次该怎么改进 ?”这种反思过程会生成明确的经验教训(lessons),可以通过某种方式(类似“睡眠”)把它们蒸馏到模型权重中