Hi! 我是李文举.

一名AI算法工程师,热爱生成式模型和具身智能.

女儿突然知道关心人了

女儿的成长有了一个小的飞跃。

阅读全文 »

shfl_xor_sync原语

最近在做一个算子融合的优化时,遇到一个cuda的同步原语,shfl_xor_sync。于是做了一点实验。将实验结果记录下来。

阅读全文 »

MHA, GQA, MQA, MLA的代码

本文汇总这几个常见注意力结构的源码,尽可能展示出依次递进的演变过程,以备复习。

阅读全文 »

Bank Conflicts简介

什么是Bank Conflicts?如何解决这个问题?

阅读全文 »

FlashAttention解读

解读FlashAttention的原理和极简代码实现。

阅读全文 »

cuda矩阵乘法优化

cuda基本功,矩阵乘法优化。

阅读全文 »

矩阵求导没你想的那么难

机器学习的基本功,熟能生巧。

阅读全文 »

费曼学习法

费曼学习法的基本原则。

阅读全文 »