电话: 邮箱:
博 学 而 笃 志   切 问 而 近 思 SEEK BROAD KNOWLEDGE · ASK EARNESTLY

世界杯最新消息

世界杯最新消息

2026世界杯押注app官方版 多轮Agent蒸馏终于不翻车!港华文x通义新范例到手率暴涨18点,实验还快32%

发布日期:2026-05-09 09:10 来源:未知 作者:admin 浏览次数:

把坚定模子的才调"蒸馏"给小模子,听起来很好意思——

但放到多轮对话 Agent 场景里,效力经常一塌婉曲。

为什么?

香港华文大学筹划阿里通义行状群给出了谜底,并冷落了一种名为 TCOD(Temporal Curriculum On-Policy Distillation)的实验范例。

上图(左)默示在多轮 Agent 的 OPD 实验中,跟着交互轮次的加多,教育模子对学生生成回答中各 token 的概率分派捏续裁汰,标明每轮的 KL 散度束缚攀升,最终导致监督信号失效。(右)默示原始 OPD 使用完好轨迹进行实验,因此包含了整个积贮的舛讹;而 TCOD-F2B/B2F 则通过课程学习,从短轨迹缓缓膨大至长轨迹,灵验侧目了舛讹轮次的搅扰。)

团队发现失效的根柢原因在于轨迹级 KL 不相识性,每一轮舛讹束缚积贮,把学生模子推到解释模子从未见过的景况区域,解释的监督信号因此透顶失效。

而 TCOD 用课程学习的念念路,让学生模子从短轨迹动手、轮换渐进地学习完好轨迹,一举料理了多轮 Agent 蒸馏的相识性难题。

TCOD 只需对现存 OPD 代码作念少量篡改

On-Policy Distillation(OPD)照旧在 SFT 和 RL 之后,成为了第三种灵验的 post-training 实验表情。

干系词 OPD 固然在数学推理等单轮任务上很好用,但放到 ALFWorld、WebShop 这类多轮交互任务里,平直翻车:

小模子:KL 散度飙升 + 到手率坍塌到接近 0

大一丝的模子:固然最终拘谨,但启动 KL 极高,实验极不相识

( ALFWorld 上不同师生模子组合的轨迹级 KL 分析。 ( a ) ( b ) 表露,在通盘实验经由中 KL 散度捏续攀升,同期任务完成率出现坍塌。 ( c ) 展示了 OPD 实验中启动 KL 与拘谨后 KL 之间的坚定差距。 ( d ) 揭示了背后的根柢原因:KL 散度随交互轮次的加多而增大,标明舛讹沿轨迹场合束缚积贮放大。 )

那 TCOD 是若何料理的呢?

中枢念念路很简便:别一动手就让学生孤苦走完好条轨迹,用课程学习,从短到长迟缓来。

具体有两种变体:

F2B(前向到后向):先让学生精采前几步,再缓缓秉承后续范例

B2F(后向到前向):先让解释联接到接近至极的景况,学生只精采临了几步,再逐渐上前延迟

两种表情只需对现存 OPD 代码作念少量篡改。

KL 崩溃被透顶压制,小模子平直"满血回生"

团队在三个难度递加的多轮 Agent 基准上考据了 TCOD 的效力,包括 ALFWorld(具身导航)、WebShop(电商购物)以及 ScienceWorld(科学推理)。

在这些基准上,TCOD 到手率最高普及了 18 个百分点,同期把平均举留步数也一并压了下来。

最值得关爱的,2026世界杯押注app官方版是小模子的"死而复生"。

以Qwen3-1.7B为例,用 Vanilla OPD 实验后,模子在三个基准上的平均到手率仅有0.17%。

这险些是绝对崩溃、毫无可用性。

但换上 TCOD 之后,吞并个 1.7B 小模子的平均到手纯厚接拉升至18% 以上,普及幅度杰出 18 个百分点。

这意味着,TCOD 把一个"废了"的模子再行训活了。

关于更大的模子,TCOD 则是诚心诚意。

以Qwen2.5-3B学生模子为例,在 ALFWorld 的 Valid Unseen 测试集上,Vanilla OPD 到手率为60.45%,而 TCOD-F2B 的到手率为79.19%,普及了 18.74 个点。

不仅如斯,TCOD 还把完成任务所需的平均举留步数压缩了 2.97 步,推理效力和任务性能同步普及。

TCOD 与 OPD 在 ALFWorld 上的实验动态对比

上图 ( a ) ( b ) 分辩展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的动作 teacher 模子时的到手率与 KL 散度变化弧线。TCOD 在通盘实验经由中遥远保捏更高的到手率,同期 KL 散度也愈加牢固可控。

TCOD 与 OPD 在 ALFWorld 上的实验动态对比

上图 ( a ) ( b ) 分辩展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的动作 teacher 模子时的实验经由中的平均举留步数与上风函数的变化弧线。

盘考东说念主员还故意构建了一个Hard 测试集——

121 个教育模子 pass@10 采样沿途失败的任务,教育本身到手率仅 6.61%。

规矩,Qwen2.5-7B 学生模子在 TCOD-B2F 的实验下,Hard 集到手率达到 20.66%,比教育进步整整 14 个点。

让模子学会"从短到长、轮换渐进"地走轨迹,不仅能学会解释会的,还能泛化到解释根柢不会的任务。

△TCOD 与 OPD 在 ALFWorld 上的域外泛化及繁难集性能对比

另外,盘考东说念主员还测试了实验效力。

TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总实验时辰。

原因也很平直:课程学习早期只走短轨迹,rollout 更短、数据采集更快,省下来的设想量荒谬可不雅。

团队还进一步考据了超参鲁棒性,发现课程膨大速度 η 在 {2,4,6} 之间变动,到手率波动不杰出 2%,险些不需要调参就能平直用。

TCOD 展现出的这种"轮换渐进"形状,让 AI 更接近东说念主类学习的表情。

也等于先在简便场景里站稳脚跟,再缓缓挑战复杂任务,而不是一动手就被扔进深水区。

翌日,这类时序课程机制很可能成为实验长程 Agent 的标配组件。

论文:https://arxiv.org/pdf/2604.24005

GitHub:https://github.com/kokolerk/TCOD

ModelScope:https://modelscope.cn/collections/wjqkoko/TCOD

Hugging Face:https://huggingface.co/collections/kolerk/tcod

一键三连「点赞」「转发」「留心心」

宽待在褒贬区留住你的主义!

—  完  —

咱们正在招聘又名眼疾手快、关爱 AI 的学术剪辑实习生  � �

感好奇的小伙伴宽待关爱 � �  了解细目

� � 点亮星标 � �

科技前沿阐扬逐日见2026世界杯押注app官方版

开云kaiyun(中国)体育官网