认知可解释推理痕迹研究

CoT推理痕迹必须可解释才能提升LLM性能吗?

AI Research 2025年 • Arizona State University Bhambri et al.
R1
推理痕迹

核心发现

性能最佳
可解释性最低
认知负荷最高

Key Metrics

参与者: 100人
模型: LLaMA & Qwen
痕迹类型: 4种
评估维度: 7项

研究背景与动机

近期推理导向的大型语言模型进展主要依赖于引入链式思维(CoT)推理痕迹,模型在产生答案前生成中间推理步骤。

这些痕迹不仅用于指导推理,还作为知识蒸馏到小型模型的监督信号。然而,一个普遍但隐含的假设是CoT痕迹应对终端用户具有语义意义和可解释性。

四种推理痕迹类型

  • 1. DeepSeek R1 痕迹
  • 2. R1痕迹的LLM生成摘要
  • 3. R1痕迹的事后解释
  • 4. 算法生成的可验证正确痕迹

人类评估实验

参与者:100名(4组,每组25人)
评估维度:可预测性、可理解性、可解释性、忠实性
认知负荷:NASA-TLX量表评估
统计方法:Mann-Whitney U检验

核心概念深度解析

Chain-of-Thought 推理痕迹

LLM在生成最终答案前产生的中间推理步骤序列,用于引导多步骤推理过程。

监督微调 (SFT)

使用特定结构数据集调整模型参数,提升特定任务表现的训练方法。

可解释性评估

通过可预测性、可理解性、忠实性等维度,衡量人类对推理过程的认知理解程度。

认知负荷量化

采用NASA-TLX量表评估心理需求、努力和挫败感,量化用户理解成本。

研究核心洞察

性能与可解释性脱节

最佳性能的推理痕迹可解释性最低

训练信号优化

CoT痕迹应专注于模型性能提升

解耦设计理念

独立开发用户可解释性方法

实验结果矛盾

R1痕迹 - 性能冠军

在Llama和Qwen模型上实现最高的最终答案准确率,证明其作为训练信号的有效性。

R1痕迹 - 可解释性垫底

在人类评估中得分最低,认知负荷最高,用户理解困难。

算法痕迹 - 理解之王

可解释性最高,认知负荷最低,但对模型性能提升最弱。

研究意义与启示

重新定义CoT痕迹角色

CoT痕迹应主要用于优化模型性能,而非满足最终用户的可解释性需求。

独立解释系统设计

应独立开发专门针对终端用户的解释生成方法,与训练信号分离。

挑战传统假设

质疑"良好的训练信号必须具有语义结构"的传统观念。

技术实现细节

Dataset:
CoTemp QA
Evaluation:
最终答案准确率
Models:
LLaMA & Qwen
Method:
监督微调

研究框架要点

引言与问题设定

  • CoT痕迹是提升LLM性能的关键策略
  • 挑战可解释性隐含假设
  • 探索训练信号与用户解释的脱节

测量方法论

  • CoTemp QA基准数据集
  • 5点李克特量表评估
  • NASA-TLX认知负荷测量

核心发现

  • 性能与可解释性显著脱节
  • 最佳训练信号≠最佳用户体验
  • 需要解耦中间标记与用户解释