一名AI算法工程师,热爱生成式模型和具身智能.
本文是Step1X-Edit执行流程的第二篇,主要介绍去噪过程。
最近一直在做扩散模型相关工作,一方面疯狂吸收理论知识,扩散模型中的数学属实太多,经过一段疯狂学习后,算是初窥门径,后续准备把自己一些理解写出来。另一方面,关注图片编辑这个实用的领域,这个领域还处在快速发展之中,希望能做出一点有用的东西。今天这篇文章就是分享阶跃星辰的Step1X-Edit这个图片编辑模型的执行流程。先说说为什么选择这个模型,因为这是第一个使用了vlm的图片编辑模型。个人认为,使用vlm编码文字编辑指令和图片,是一个非常优雅的解决方案,因为可以不费力吸收最新的vlm模型的成果。
女儿的成长有了一个小的飞跃。
最近在做一个算子融合的优化时,遇到一个cuda的同步原语,shfl_xor_sync。于是做了一点实验。将实验结果记录下来。
本文汇总这几个常见注意力结构的源码,尽可能展示出依次递进的演变过程,以备复习。
什么是Bank Conflicts?如何解决这个问题?
解读FlashAttention的原理和极简代码实现。
cuda基本功,矩阵乘法优化。