跳过正文
Abanana

Abanana

最近的文章

简洁提示:通过生成过程中的连续简洁提示提升推理效率
简洁提示:通过生成过程中的连续简洁提示提升推理效率 # ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation
Prophet:Diffusion模型基于置信度的Decoding早停
Prophet:Diffusion 模型基于置信度的 Decoding 早停 # 20250827 提交到 arXiv 上的,感觉像是占坑的,实验部分有些不完善 Prophet: Fast Decoding for Diffusion Language Models # 摘要 # 扩散语言模型(DLMs)最近作为自回归方法的替代方案出现,提供了并行序列生成和灵活的标记顺序。然而,它们的推理速度仍比自回归模型慢,主要是由于双向注意力的成本以及生成高质量输出所需的大量精炼步骤。在本工作中,我们强调并利用了 DLMs 的一个被忽视的特性——早期答案收敛:在许多情况下,正确答案可以在最终解码步骤之前的一半步骤内被内部识别,无论是在半自回归还是随机重新遮蔽调度下。例如,在 GSM8K 和 MMLU 数据集上,分别有高达 97% 和 99% 的实例仅使用一半的精炼步骤即可正确解码。基于这一观察,我们引入了 Prophet,这是一种无需训练的快速解码范式,能够实现早期提交解码。具体而言,Prophet 使用前两名预测候选之间的置信度差距作为标准,动态决定是否继续精炼或“全部投入”(即一次解码所有剩余标记)。它可无缝集成到现有的 DLM 实现中,开销可以忽略不计,并且不需要额外的训练。在多个任务上对 LLaDA-8B 和 Dream-7B 的实证评估表明,Prophet 将解码步骤数减少了多达 3.4 倍,同时保持了高质量的生成效果。这些结果将 DLM 解码重新定义为一个何时停止采样的问题,并证明早期解码收敛为加速 DLM 推理提供了一个简单而强大的机制,与现有的加速技术相辅相成。我们的代码可在 https://github.com/pixeli99/Prophet 公开获取。
SpecDiff:使用扩散模型作为Draft模型
SpecDiff:使用扩散模型作为 Draft 模型 # Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion
DiffuSpec:解锁DLM做投机采样
DiffuSpec:解锁 DLM 做投机采样 # DIFFUSPEC: UNLOCKING DIFFUSION LANGUAGE MODELS FOR SPECULATIVE DECODING
后端部署第二步:本地到公网——如何使用 Nginx 发布 FastAPI 服务
后端部署第二步:本地到公网——如何使用 Nginx 发布 FastAPI 服务 # 在当今的开发环境中,快速构建和部署后端服务变得至关重要。FastAPI 作为一个高性能、现代化的 Python 异步 Web 框架,广受开发者喜爱。而 Nginx 则是部署 Web 应用最常见也是最稳定的解决方案之一。
Fast-dLLM:通过KV Cache和并行Decoding加速dLLM
Fast-dLLM:通过 KV Cache 和并行 Decoding 加速 dLLM # Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
后端部署第一步:Nginx 发布服务前的万全准备
后端部署第一步:Nginx 发布服务前的准备工作 # 你是不是刚刚用 Java、Python 或 Go 写出了第一个后端程序?它在本地跑得飞快,通过 localhost:8080 就能访问,功能也都挺顺畅。接下来,自然而然会冒出一个念头:“我要怎样才能让别人也能访问到它?”
自信地深度思考
自信地深度思考 # DEEP THINK WITH CONFIDENCE
TriangleMix:无损且高效的用于预填充阶段的注意力模式
TriangleMix:无损且高效的用于预填充阶段的注意力模式 # TriangleMix: A Lossless and Efficient Attention Pattern for Long Context Prefilling