Prophet:Diffusion模型基于置信度的Decoding早停
Prophet:Diffusion 模型基于置信度的 Decoding 早停 # 20250827 提交到 arXiv 上的,感觉像是占坑的,实验部分有些不完善 Prophet: Fast Decoding for Diffusion Language Models # 摘要 # 扩散语言模型(DLMs)最近作为自回归方法的替代方案出现,提供了并行序列生成和灵活的标记顺序。然而,它们的推理速度仍比自回归模型慢,主要是由于双向注意力的成本以及生成高质量输出所需的大量精炼步骤。在本工作中,我们强调并利用了 DLMs 的一个被忽视的特性——早期答案收敛:在许多情况下,正确答案可以在最终解码步骤之前的一半步骤内被内部识别,无论是在半自回归还是随机重新遮蔽调度下。例如,在 GSM8K 和 MMLU 数据集上,分别有高达 97% 和 99% 的实例仅使用一半的精炼步骤即可正确解码。基于这一观察,我们引入了 Prophet,这是一种无需训练的快速解码范式,能够实现早期提交解码。具体而言,Prophet 使用前两名预测候选之间的置信度差距作为标准,动态决定是否继续精炼或“全部投入”(即一次解码所有剩余标记)。它可无缝集成到现有的 DLM 实现中,开销可以忽略不计,并且不需要额外的训练。在多个任务上对 LLaDA-8B 和 Dream-7B 的实证评估表明,Prophet 将解码步骤数减少了多达 3.4 倍,同时保持了高质量的生成效果。这些结果将 DLM 解码重新定义为一个何时停止采样的问题,并证明早期解码收敛为加速 DLM 推理提供了一个简单而强大的机制,与现有的加速技术相辅相成。我们的代码可在 https://github.com/pixeli99/Prophet 公开获取。