一名AI算法工程师,热爱生成式模型和具身智能.
女儿的成长有了一个小的飞跃。
最近在做一个算子融合的优化时,遇到一个cuda的同步原语,shfl_xor_sync。于是做了一点实验。将实验结果记录下来。
本文汇总这几个常见注意力结构的源码,尽可能展示出依次递进的演变过程,以备复习。
什么是Bank Conflicts?如何解决这个问题?
解读FlashAttention的原理和极简代码实现。
cuda基本功,矩阵乘法优化。
机器学习的基本功,熟能生巧。
费曼学习法的基本原则。