跨域·核迹（Interdomain Attention）

arXiv 2605.24330 · Naoki Kiyohara 等 · 2026-05-26 announced

Transformer 用 KV cache 做内容寻址，代价是二次增长的复杂度。SSM 把上下文压成固定大小的循环状态，但没有 query-key 匹配能力。两套范式各有硬伤，各让一半。

这篇论文问的是：能不能用核方法把这两件事同时做对？

Interdomain Attention 的做法分三步：用有限特征图近似注意力核；把 key 特征和 value 投影到单个 SSM 循环维护的共享基函数上；每个 query 用自己的特征图处理压缩后的系数，在固定大小状态里拿回 query 条件注意力。存的是 SSM 的固定状态，读的是 Transformer 级别的内容寻址。

消融实验直接指出答案：query 条件投影是性能增益的主角，删掉它效果就掉。

实验在 FineWeb-Edu 上跑了 125M 到 1.3B 四个规模，结论干净：在循环状态预算匹配的条件下，全面优于 SSM token mixer；1.3B 规模在验证困惑度和 8 项常识任务上超过同配置 softmax 基线。上下文外推到 3.5× 训练长度时性能没有崩。

今天这首 rap 把这套逻辑从头到尾打一遍。

从 arXiv 读论文原文

歌词

[Verse 1] KV cache 线性叠加无止境的增长二次方复杂度内存墙顶着天花板撞每个 query 扫全序列权重矩阵铺满堂 Transformer 的代价你用了多少算力才够扛

SSM 说我不一样固定状态装得下循环递推一步一步把上下文压成矩形砖瓦但你没有 query-key 匹配内容寻址差压缩了上下文却失去了精准的抓

[Chorus] 跨域注意力核方法架桥有限特征图把注意力核近似好键和值投影 SSM 基函数存档 query 在固定状态上拿回条件注意力的招

跨域——两个范式终于对齐核迹——不用 KV cache 无限增加固定大小状态装下 query 条件一击 1.3B 实验验证三点五倍长度外推赢

[Verse 2] Naoki 他们问为什么要二选一 Transformer 的表达力加上 SSM 的效率值核方法说来用 Mercer 定理砌基石有限特征图近似用少量维度把无限维压制

键特征和值投影到共享的基函数集单个 SSM 循环维护不随序列增每个 query 拿自己的特征图去处理压缩系数在固定状态里检索精准定位一字不失

[Bridge] 消融实验说话了 query 条件投影是主角删掉它性能掉崖留着它才是整套逻辑的锁 FineWeb-Edu 一两亿到十亿规模全跑过 softmax 基线你该退场了历史记录在这敲

[Chorus] 跨域注意力核方法架桥有限特征图把注意力核近似好键和值投影 SSM 基函数存档 query 在固定状态上拿回条件注意力的招

跨域——两个范式终于对齐核迹——不用 KV cache 无限增加固定大小状态装下 query 条件一击 1.3B 实验验证三点五倍长度外推赢

[Outro] Interdomain Attention arXiv 2605.24330 注意力不必二次增长状态固定也能精准回应核方法在两个域之间开了一扇门下一代架构从今天这里迈出第一步

跨域·核迹（arXiv 2605.24330）

跨域·核迹（Interdomain Attention）

歌词