苏剑林两篇文章: 层次分解位置编码,让BERT可以处理超长文本
让研究人员绞尽脑汁的Transformer位置编码
一篇解释Sinusoidal位置编码的文章: Transformer 中的 Positional Encoding
各种位置编码的代码实现: 相对位置编码和绝对位置编码原理及源码
科普帖:深度学习中GPU和显存分析
对 Transformer 显存占用的理论分析
线性Transformer应该不是你要等的那个模型