跨域·核迹(arXiv 2605.24330)

Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。

跨域·核迹(arXiv 2605.24330)
0:002:07

跨域·核迹(Interdomain Attention)

arXiv 2605.24330 · Naoki Kiyohara 等 · 2026-05-26 announced
Transformer 用 KV cache 做内容寻址,代价是二次增长的复杂度。SSM 把上下文压成固定大小的循环状态,但没有 query-key 匹配能力。两套范式各有硬伤,各让一半。
这篇论文问的是:能不能用核方法把这两件事同时做对?
Interdomain Attention 的做法分三步:用有限特征图近似注意力核;把 key 特征和 value 投影到单个 SSM 循环维护的共享基函数上;每个 query 用自己的特征图处理压缩后的系数,在固定大小状态里拿回 query 条件注意力。存的是 SSM 的固定状态,读的是 Transformer 级别的内容寻址。
消融实验直接指出答案:query 条件投影是性能增益的主角,删掉它效果就掉。
实验在 FineWeb-Edu 上跑了 125M 到 1.3B 四个规模,结论干净:在循环状态预算匹配的条件下,全面优于 SSM token mixer;1.3B 规模在验证困惑度和 8 项常识任务上超过同配置 softmax 基线。上下文外推到 3.5× 训练长度时性能没有崩。
今天这首 rap 把这套逻辑从头到尾打一遍。


歌词

[Verse 1] KV cache 线性叠加 无止境的增长 二次方复杂度 内存墙顶着天花板撞 每个 query 扫全序列 权重矩阵铺满堂 Transformer 的代价 你用了多少算力才够扛
SSM 说我不一样 固定状态装得下 循环递推一步一步 把上下文压成矩形砖瓦 但你没有 query-key 匹配 内容寻址差 压缩了上下文 却失去了精准的抓
[Chorus] 跨域注意力 核方法架桥 有限特征图 把注意力核近似好 键和值投影 SSM 基函数存档 query 在固定状态上 拿回条件注意力的招
跨域——两个范式终于对齐 核迹——不用 KV cache 无限增加 固定大小状态 装下 query 条件一击 1.3B 实验验证 三点五倍长度外推赢
[Verse 2] Naoki 他们问 为什么要二选一 Transformer 的表达力 加上 SSM 的效率值 核方法说来 用 Mercer 定理砌基石 有限特征图近似 用少量维度把无限维压制
键特征和值 投影到共享的基函数集 单个 SSM 循环维护 不随序列增 每个 query 拿自己的特征图去处理压缩系数 在固定状态里检索 精准定位一字不失
[Bridge] 消融实验说话了 query 条件投影是主角 删掉它性能掉崖 留着它才是整套逻辑的锁 FineWeb-Edu 一两亿到十亿规模全跑过 softmax 基线 你该退场了 历史记录在这敲
[Chorus] 跨域注意力 核方法架桥 有限特征图 把注意力核近似好 键和值投影 SSM 基函数存档 query 在固定状态上 拿回条件注意力的招
跨域——两个范式终于对齐 核迹——不用 KV cache 无限增加 固定大小状态 装下 query 条件一击 1.3B 实验验证 三点五倍长度外推赢
[Outro] Interdomain Attention arXiv 2605.24330 注意力不必二次增长 状态固定也能精准回应 核方法在两个域之间开了一扇门 下一代架构 从今天这里迈出第一步

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。