无需SFT也不用RL样本级开元棋牌官网 - 注册送彩金88元正版棋牌娱乐平台【立即下载】推理优化神器SLOT来了准确率轻松+10%

kaiyuan 开元棋牌

发布时间：2025-06-14 09:03:13　　点击量：

　　开元棋牌,开元棋牌官网,开元棋牌下载,开元娱乐,棋牌游戏平台,棋牌真钱游戏,注册送彩金棋牌,棋牌游戏,棋牌平台

无需SFT也不用RL样本级开元棋牌官网 - 注册送彩金88元正版棋牌娱乐平台【立即下载】推理优化神器SLOT来了准确率轻松+10%

　　无需SFT也不用RL，样本级推理优化神器SLOT来了，准确率轻松+10%

　　近期，当很多人还在纠结用什么 label 和 reward 训练大模型的时候，以及纠结用什么样的基准模型进行公平比较的时候，西湖大学 MAPLE 实验室另辟蹊径：既然 LLM 在复杂指令上表现不佳，需要引入单独的 SFT 或者 RL 过程，那为什么不让模型在推理时「临时学习」一下这个具体的问题呢？这个看似「离谱」的想法，竟然带来了惊人的效果提升。

　　试想一下，如果你参加考试时，可以在答题前花几秒钟「适应」一下这道具体的题目，你的表现会不会更好？

　　这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT（Sample-specific Language Model Optimization at Test-time）方法，把每个输入 prompt 本身当作一份「迷你训练数据」，让模型在生成答案前先「学习」理解这个具体问题。

　　只需要优化一个轻量级参数向量 delta（仅修改最后一层特征）只需要几步 (比如 3 步) 梯度下降计算开销几乎可以忽略不计（仅增加 7.9% 推理时间）完全即插即用，无需修改原模型

　　即便拿最有挑战性的高性能基线做比较对象，实验结果令人瞩目 (所有 log 都在开源 github 里)：

　　传统的 LLM 在面对复杂或特殊格式的指令时经常「翻车」，它可能会忽略格式要求或给出错误答案。

　　SLOT 的解决方案优雅而简单：针对单独一个问题，直接在最后一层特征上加一个 delta 向量，并在问题 prompt 本身上最小化交叉熵损失即可。

　　由于仅仅需要在最后一层上优化一个加性的 delta 参数向量，每个问题只需要经过一次网络推理。通过把输入给最后一层的中间结果进行缓存，优化 delta 的过程几乎不需要增加计算开销。

　　由于方法十分简单，任何伪代码公式都多余，这里给出如何把 SLOT 应用于你的工作的 transformers 版本代码（vLLM 版本也已开源）。

　　研究团队通过分析发现，SLOT 优化后的 delta 会显著调整输出词汇的概率分布：

　　增强的词汇：reasoning、think、thinking 等推理相关词汇抑制的词汇：数字符号（0-9）、模态动词（should、will）、结束符

　　这意味着 SLOT 在鼓励模型「深思熟虑」，避免过早结束推理或陷入表面的模式匹配。

　　Qwen 系列：1.5B 到 32B 均有提升。Llama 系列：包括 Llama-3.1。DeepSeek-R1 系列：即使是已经专门优化过推理能力的模型，仍能获得显著提升。

　　在大模型时代，当所有人都在追求「更大、更强」时，SLOT 用一个简单得「离谱」的想法证明：有时候，让模型在回答前先「理解」一下问题，就能带来惊人的效果。

上一篇 : 小马模拟器游开元棋牌官网 - 注册送彩金88元正版棋牌娱乐平台【立即下载】戏

下一篇: 这么好玩的棋乐棋牌app别说你还没下开元棋牌官网 - 注册送彩金88元正版娱乐平台【立即下载】载？

【返回列表】

友情链接： Casino USDT

电话：363050.com
手机：363050.com
QQ：363050.com