一名AI算法工程师,热爱生成式模型和具身智能.
苏剑林两篇文章: 层次分解位置编码,让BERT可以处理超长文本
最近一直在思考的问题,感觉有两个原因。
总结一下自己在一个文档检索项目中使用对比学习时的炼丹经验.
SimCSE巧妙利用了Dropout做对比学习,想法简单、效果惊艳。对比学习的核心就是loss的编写,官方给出的源码,loss写的略复杂。苏神的loss实现就相当的简单明了,今天,就记录下苏神源码中loss的阅读笔记。
DNN中的反向传播的简明例子。
链表和数组遍历中索引和元素的对齐问题。
使用cuda计算矩阵相乘时,核心的思路是构建一个二维的grid和一个二维的block,使用适当的映射方法,将block映射到结果矩阵中相应的块。然后编写kernel。如下图所示:
使用tensorrt时如何处理动态shape