ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘

杏花信息技术项目组 征稿

物理位 | 社会公众号 QbitAI

改良Transformer核心理念监督机制目光,让小数学模型能打三倍大的数学模型

ICML 2024最高分论文,杏花信息技术项目组构建DCFormer框架,代替Transformer核心理念模块空头目光模块(MHA),提出可静态女团的空头目光(DCMHA)

DCMHA解除了MHA目光头的搜寻优先选择电路和转换电路的一般来说存取,让它能依照输入静态女团,从根本上提高了数学模型的理解能力。

能近似理解为,原来四层有一般来说的H个目光头,现在用几乎反之亦然的参数量和INS13ZD,可按需静态女团出多至HxH个目光头。

DCMHA热插拔,可在任何Transformer构架中代替MHA,获得通用、高效和可扩展的新构架DCFormer。

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图1)

此项组织工作由来自北京航空航天大学、AI创业公司杏花信息技术的科学研究相关人员合写。

科学研究相关人员用在DCFormer基础上打造的数学模型DCPythia-6.9B,在预训练疑惑度和下游任务评估上都优于开放源码Pythia-12B。

DCFormer数学模型在性能上与那些计算量是其1.7-2倍的Transformer数学模型相当。

空头目光模块答局限?

大数学模型的scaling law告诉我们,随着INS13ZD的提高,数学模型更大、数据更多,数学模型效果会越来越好。虽然还没有人能明确说明这条路的地板有多高,能否达到AGI,但这确实是目前大家最普遍的做法。

但除此之外,另两个问题反之亦然值得思考:目前绝大多数大数学模型都如前所述Transformer,它都是用两个两个Transformer块像捞虾那样搭起来的,那作为乐高块的Transformer本身,还有多大的改良提高空间?

这是数学模型结构科学研究要提问的基本问题,也正是杏花信息技术和北京航空航天大学联合顺利完成的DCFormer此项组织工作的落脚点。

在Transformer的空头目光模块(MHA)中,各个目光头彼此完全分立的组织工作。

这个设计因其简单易实现的优点已在工作中大获成功,但同时也带来目光平均分行列式的低秩化削弱了理解能力、目光头功能的重复输入输出浪费了参数和计算能力等一些弊端。如前所述此,近年来有一些科学研究组织工作试图引入某种形式的目光头间的可视化。

依照Transformer电路理论,在MHA中 ,每个目光头的行为由WQ、WK、WV、WO四个权重行列式刻画(其中WO由MHA的输出二维行列式重新组合获得)

其中,WQWK叫作QK电路(或叫搜寻优先选择电路),下定决心从现阶段token高度关注语句中的哪个(些)token,比如:

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图3)

WOWV叫作OV电路(或叫二维转换电路),下定决心从高度关注到的token拿取甚么信息(或二维甚么特性)载入现阶段位置的状态参数流,进而预测下两个token。比如:

科学研究相关人员注意到,搜寻(从哪拿)和转换(拿甚么)本来是分立的两句话,理应能分别指定并按需自由女团(就像在SQL查询中,WHERE后的优先选择条件和SELECT后的特性二维是分开写的那样),MHA硬把它放到两个目光头的QKOV里“绑定销售”,限制了灵活性和理解能力。

比如,假设有位数学模型存在目光头A、B、C其QK和OV电路能够顺利完成上面的例子=,那换成:

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图5)

需要交叉女团现有目光头的QK和OV电路,数学模型就可能“转不过好象”了(经科学研究相关人员系统构造的合成测试集验证,

静态女团空头目光长啥样?

以此为落脚点,本文科学研究项目组在MHA中引入compose操作

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图6)

如下图所示,获得DCMHA:

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图7)

△图1. DCMHA总体结构

将QWQ和KWK算出的目光平均分行列式AS和目光权重行列式AW,与VWV相乘之前,对其在num_heads维上做线性映射获得新的行列式A’,通过不同的线性映射行列式(composition map),以实现各种目光头女团的效果。

比如图2(c)中将head 3和7的QK电路与head 1的OV电路女团在一起,形成两个“新的”目光头。

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图8)
ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图9)

△图2. 8个目光头的简化的典型composition map的功能,浅色表示大值

为了最大限度的增强理解能力,科学研究相关人员希望映射行列式由输入静态生成,即静态下定决心目光头怎样女团。

但他们要生成的映射行列式不是两个,而是对序列中每对源位置的query Qi和目的位置的key Kj,都要生成这样两个行列式,计算开销和显存占用都将难以接受。

为此,他们进一步将映射行列式分解为两个输入无关的静态行列式Wb、两个低秩行列式w1w2和两个对角行列式Diag(wg)之和,分别负责基础女团、目光头间的有限方式(即秩R<=2)的静态女团和头自身的静态门控(见图2(d)和图3(b))。其后段两个行列式由Q行列式和K行列式静态生成。

在不牺牲效果的前提下,将计算和参数复杂度降低到几乎能忽略的程度(详见论文中复杂度分析)。再结合JAX和PyTorch实现层面的优化,让DCFormer能高效训练和推理。

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图10)

△图3. Compose的计算

效果如何?

规模扩展

评估两个构架的好坏,科学研究相关人员高度关注的最核心理念指标是INS13ZD转化为智能的效率(或叫性能INS13ZD比),即投入单位INS13ZD能带来的数学模型性能提高——花更少的INS13ZD,获得更好的数学模型。

从图4和图5的scaling law曲线(在对数坐标下,每个数学模型构架的损失随INS13ZD的变化可画出一条近似直线,损失越低,数学模型越好)能看出,DCFormer能达到1.7~2倍INS13ZD的Transformer数学模型的效果,即INS13ZD智能转化率提高了1.7~2倍。

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图11)

△图4. Transformer和DCFormer的规模扩展效果

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图12)

△图5. Pythia和DCPythia的规模扩展效果

怎么理解这个提高幅度呢?

自2017年Transformer诞生至今,从改良性能INS13ZD比的角度,GLU MLP和旋转位置编码RoPE是经大量实践验证普适有效且被广泛采用的为数不多的两项构架改良。

在原始Transformer中加入这两项改良的构架也叫Transformer++,Llama、Mistral等最强开放源码数学模型均采用该构架。无论Transformer还是Transformer++构架,都可通过DCMHA获得显著改良。

在1.4B数学模型规模下,DCMHA的改良幅度大于Transformer++的两项改良之和,且扩展性更好(图4下蓝绿线和黑线的对比,DCMHA的改良幅度随INS13ZD增加衰减的更慢,以及图4和图5的对比)。

能说,DCFormer让Transformer的能力又跃上两个新台阶。

下游任务评测

科学研究项目组训练了DCPythia-2.8B和DCPythia-6.9B两个数学模型在主流NLP下游任务上进行测评并和同规模的开放源码数学模型Pythia进行比较(训练采用和Pythia完全相同超参数设置)

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图13)

△表1. DCFormer 和 Pythia 在下游任务中的表现

从表1中能看出,DCPythia-2.8B和6.9B不仅在Pile验证集上的ppl 更低,而且在大部分下游任务上都显著超过了Pythia,DCPythia6.9B在 ppl 和下游任务上的平均准确率甚至超过了Pythia-12B

DCFormer++2.8B相对于DCPythia-2.8B有进一步的提高,验证了DCMHA和Lllama构架结合的有效性。

训练和推理速度

虽然引入DCMHA会带来额外的训练和推理开销,但是从表2中能看出DCFormer++的训练速度是Transformer++的74.5%-89.2%,推理速度则是81.1%-89.7%,而且随着数学模型参数的增长,额外的计算开销会逐渐降低。

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图14)

△表2. Transformer++和DCFormer++的训练和推理速度对比

训练速度是在TPU v3 pod,序列长度为2048,batch_size为1k的情况下对比获得的;推理速度是在A100 80G GPU上进行评测的,输入长度1024,生成长度128。

消融实验

结果如下:

ICML2024最高分!魔改目光,让小数学模型能打三倍大的数学模型小宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘(图15)

△表3. DCMHA的消融实验

从表3中能看出以下几点:

虽然加入静态的女团权重就能降低ppl,但引入静态的女团权重能进一步降低ppl,说明了静态女团的必要性。低秩静态女团比静态门控的效果更好。只用query-wise或者key-wise的静态女团获得的ppl相当,与DCFormer++的差距很小。在softmax后做目光头女团比在softmax前做更有效,可能是因为softmax后的概率能更直接影响输出。静态女团权重的秩无需设置过大,也说明了女团权重的低秩性。

此外,科学研究相关人员还通过增加局部目光层的比例和只用query-wise静态女团的方式去进一步减少训练和推理开销,详见论文Table 10。

总的来说,科学研究项目组有两点总结。

关于静态权重:近期Mamba,GLA,RWKV6,HGRN等SSM和线性目光/RNN的组织工作,通过引入静态(input-dependent)权重的方式,追赶上了Transformer++,但DCFormer用静态女团目光头的方式说明了在使用 softmax 目光的情况下,通过引入静态权重也能大幅提高Transformer++的效果。

关于数学模型构架创新:此项组织工作表明,如果存在两个具有极限INS13ZD智能转化效率的“理想数学模型构架”,现阶段的Transformer构架虽已非常强大,但距离这个理想构架很可能还存在很大的差距,仍有广阔的提高空间。因此,除了堆INS13ZD堆数据的大力出奇迹路线,数学模型构架创新反之亦然大有可为。

科学研究项目组还表示,杏花信息技术会率先在旗下产品杏花天气、杏花小译、杏花小梦上应用DCformer。

有关更多科学研究细节,可参阅原始论文。

ICML2024论文链接:https://icml.cc/virtual/2024/poster/34047

Arxiv 论文链接:https://arxiv.org/abs/2405.08553代码链接:https://github.com/Caiyun-AI/DCFormer

— 完 —

物理位 QbitAI · 头条号签约