一名AI算法工程师,热爱生成式模型和具身智能.
使用cuda计算矩阵相乘时,核心的思路是构建一个二维的grid和一个二维的block,使用适当的映射方法,将block映射到结果矩阵中相应的块。然后编写kernel。如下图所示:
使用tensorrt时如何处理动态shape
使用tensorrt的基本知识
使用pip安装tensorrt教程
人类使用文本,计算机使用字节序列 by Esther Nam and Travis Fischer
记录一下argparser中的常用选项,作为备查表。
神经网络的int8计算是近来神经网络计算优化的方向之一。 本文介绍intel针对cnn的int8量化方案。该方案原理简单直观,并且集成在了tensorrt中,操作实验方便。