论文 | 某位老王の小窝

论文

AdaptThink: 让模型决定是否思考

AdaptThink: Reasonin…

3 天 ago

AdaCoT：通过强化学习实现的帕累托最优自适应链式思维触发器

摘要 LRM在需要复杂推理的任务上常常面…

3 天 ago

Hmm等Token影响模型推理能力

Demystifying Reasoni…

3 天 ago

SEAL：大语言模型的可操控推理 Traning Free

SEAL: Steerable Reas…

3 天 ago