交互式报告：扩散语言模型

核心对比：两种生成范式

扩散模型属于非自回归模型，其生成方式与我们熟悉的GPT等自回归模型有着根本性的不同。理解它们的差异是探索扩散模型的第一步。

➡️

像一个作家，逐字逐句地写作。严格按照从左到右的顺序，一个接一个地生成Token。

🎨

像一个画家，先勾勒轮廓再填充细节。并行地生成所有Token，并逐步优化。

扩散模型借鉴了物理学中的扩散过程，通过“加噪”和“去噪”两个阶段来生成文本。这是一个将无序变为有序的神奇过程。

点击按钮，观察文本如何在“加噪”和“去噪”之间转换。

扩散模型的性能并非一成不变。我们可以通过调整“去噪步数”在生成速度和文本质量之间做出权衡。更多的步数意味着更精细的打磨，但耗时也更长。

调整去噪步数

更快 10 步更高质量

亲身体验扩散模型的生成过程！在下面的文本框中输入一个带有 [MASK] 的句子，然后点击“开始生成”，观察模型如何迭代地填充空白并进行自我纠正。

输入带掩码的文本:

The capital of [MASK] is [MASK].

提示: 您可以直接编辑文本，或点击 [MASK] 按钮添加更多掩码。

迭代步数:

为了提高效率和质量，研究人员提出了多种优化策略，使扩散模型在实际应用中更具竞争力。

将长序列分成小块，逐块生成。这极大地提高了处理长文本的效率，并且对缓存友好，是提速的关键技术。

动态调整每一步去掩码的Token数量。在生成初期（噪音多）少去一些，后期（上下文清晰）多去一些，以平衡速度与质量。

在“推测解码”中，利用扩散模型快速生成一个草稿，再由一个更强的模型进行验证，从而为传统自回归模型提速。

扩散模型展现了巨大的潜力，但作为一项新兴技术，它也面临着自身的挑战。