Transformer优秀文章汇总


1、位置编码相关

苏剑林两篇文章: 层次分解位置编码,让BERT可以处理超长文本

让研究人员绞尽脑汁的Transformer位置编码

一篇解释Sinusoidal位置编码的文章: Transformer 中的 Positional Encoding

各种位置编码的代码实现: 相对位置编码和绝对位置编码原理及源码

2、时间空间复杂度分析

科普帖:深度学习中GPU和显存分析

对 Transformer 显存占用的理论分析

线性Transformer应该不是你要等的那个模型


原创文章,转载请注明出处,否则拒绝转载!
本文链接:抬头看浏览器地址栏

上篇: 为什么生产力这么发达了普通人仍然辛苦
下篇: onnxruntime使用gpu推理