Hi! 我是李文举.

一名AI算法工程师,热爱生成式模型和具身智能.

Transformer优秀文章汇总


1、位置编码相关

苏剑林两篇文章: 层次分解位置编码,让BERT可以处理超长文本

让研究人员绞尽脑汁的Transformer位置编码

阅读全文 »


为什么生产力这么发达了普通人仍然辛苦


最近一直在思考的问题,感觉有两个原因。

阅读全文 »


对比学习训练技巧


总结一下自己在一个文档检索项目中使用对比学习时的炼丹经验.

  • 更大的batch size
  • 更难的负样本,从同一个类型的句集中挑选负样本
  • 使用余弦相似度,更适合K-means
  • 相似度倍增,实际经验C=20较好

阅读全文 »


SimCSE核心源码解读


SimCSE巧妙利用了Dropout做对比学习,想法简单、效果惊艳。对比学习的核心就是loss的编写,官方给出的源码,loss写的略复杂。苏神的loss实现就相当的简单明了,今天,就记录下苏神源码中loss的阅读笔记。

阅读全文 »


神经网络的反向传播实例


DNN中的反向传播的简明例子。

阅读全文 »


关于序列遍历时索引和元素对齐的简便记忆法则


链表和数组遍历中索引和元素的对齐问题。

阅读全文 »


CUDA中矩阵相乘的stride技巧


1、没有stride技巧时的情况

使用cuda计算矩阵相乘时,核心的思路是构建一个二维的grid和一个二维的block,使用适当的映射方法,将block映射到结果矩阵中相应的块。然后编写kernel。如下图所示:

阅读全文 »


tensorrt处理动态shape


使用tensorrt时如何处理动态shape

阅读全文 »


相关链接