R1
推理痕迹
核心发现
性能最佳
可解释性最低
认知负荷最高
Key Metrics
参与者: 100人
模型: LLaMA & Qwen
痕迹类型: 4种
评估维度: 7项
研究背景与动机
近期推理导向的大型语言模型进展主要依赖于引入链式思维(CoT)推理痕迹,模型在产生答案前生成中间推理步骤。
这些痕迹不仅用于指导推理,还作为知识蒸馏到小型模型的监督信号。然而,一个普遍但隐含的假设是CoT痕迹应对终端用户具有语义意义和可解释性。
四种推理痕迹类型
- 1. DeepSeek R1 痕迹
- 2. R1痕迹的LLM生成摘要
- 3. R1痕迹的事后解释
- 4. 算法生成的可验证正确痕迹
人类评估实验
参与者:100名(4组,每组25人)
评估维度:可预测性、可理解性、可解释性、忠实性
认知负荷:NASA-TLX量表评估
统计方法:Mann-Whitney U检验
核心概念深度解析
Chain-of-Thought 推理痕迹
LLM在生成最终答案前产生的中间推理步骤序列,用于引导多步骤推理过程。
监督微调 (SFT)
使用特定结构数据集调整模型参数,提升特定任务表现的训练方法。
可解释性评估
通过可预测性、可理解性、忠实性等维度,衡量人类对推理过程的认知理解程度。
认知负荷量化
采用NASA-TLX量表评估心理需求、努力和挫败感,量化用户理解成本。