
SERVICE PHONE
363050.com发布时间:2025-06-14 09:03:13 点击量:
开元棋牌,开元棋牌官网,开元棋牌下载,开元娱乐,棋牌游戏平台,棋牌真钱游戏,注册送彩金棋牌,棋牌游戏,棋牌平台
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推理时「临时学习」一下这个具体的问题呢?这个看似「离谱」的想法,竟然带来了惊人的效果提升。
试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好?
这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每个输入 prompt 本身当作一份「迷你训练数据」,让模型在生成答案前先「学习」理解这个具体问题。
只需要优化一个轻量级参数向量 delta(仅修改最后一层特征)只需要几步 (比如 3 步) 梯度下降计算开销几乎可以忽略不计(仅增加 7.9% 推理时间)完全即插即用,无需修改原模型
即便拿最有挑战性的高性能基线做比较对象,实验结果令人瞩目 (所有 log 都在开源 github 里):
传统的 LLM 在面对复杂或特殊格式的指令时经常「翻车」,它可能会忽略格式要求或给出错误答案。
SLOT 的解决方案优雅而简单:针对单独一个问题,直接在最后一层特征上加一个 delta 向量,并在问题 prompt 本身上最小化交叉熵损失即可。
由于仅仅需要在最后一层上优化一个加性的 delta 参数向量,每个问题只需要经过一次网络推理。通过把输入给最后一层的中间结果进行缓存,优化 delta 的过程几乎不需要增加计算开销。
由于方法十分简单,任何伪代码公式都多余,这里给出如何把 SLOT 应用于你的工作的 transformers 版本代码(vLLM 版本也已开源)。
研究团队通过分析发现,SLOT 优化后的 delta 会显著调整输出词汇的概率分布:
增强的词汇:reasoning、think、thinking 等推理相关词汇抑制的词汇:数字符号(0-9)、模态动词(should、will)、结束符
这意味着 SLOT 在鼓励模型「深思熟虑」,避免过早结束推理或陷入表面的模式匹配。
Qwen 系列:1.5B 到 32B 均有提升。Llama 系列:包括 Llama-3.1。DeepSeek-R1 系列:即使是已经专门优化过推理能力的模型,仍能获得显著提升。
在大模型时代,当所有人都在追求「更大、更强」时,SLOT 用一个简单得「离谱」的想法证明:有时候,让模型在回答前先「理解」一下问题,就能带来惊人的效果。