Hi! 我是李文举.

一名AI算法工程师,热爱生成式模型和具身智能.

CUDA中矩阵相乘的stride技巧

1、没有stride技巧时的情况

使用cuda计算矩阵相乘时,核心的思路是构建一个二维的grid和一个二维的block,使用适当的映射方法,将block映射到结果矩阵中相应的块。然后编写kernel。如下图所示:

阅读全文 »

tensorrt处理动态shape

使用tensorrt时如何处理动态shape

阅读全文 »

tensorrt基本使用

使用tensorrt的基本知识

阅读全文 »

使用pip完成tensorrt安装

使用pip安装tensorrt教程

阅读全文 »

python中的编解码

人类使用文本,计算机使用字节序列 by Esther Nam and Travis Fischer

阅读全文 »

python中参数解析器

记录一下argparser中的常用选项,作为备查表。

阅读全文 »

pytorch实现transformer极简代码

1、生成数据

阅读全文 »

TensorRT中的int8量化

神经网络的int8计算是近来神经网络计算优化的方向之一。 本文介绍intel针对cnn的int8量化方案。该方案原理简单直观,并且集成在了tensorrt中,操作实验方便。

阅读全文 »