Hi! 我是李文举.

一名AI算法工程师,热爱生成式模型和具身智能.

deepspeed快速上手教程

记录一下快速使用deepspeed的基本操作。

阅读全文 »

离线安装ubuntu操作系统和nvidia-driver

记录一下安装过程中遇到的问题。

阅读全文 »

gpt2 tokenizer源码解析

上一篇文章中,分析了bert的tokenizer的细节,本篇继续分析gpt2的tokenizer的细节。 bpe的基本原理可以参考这篇文章:https://huggingface.co/course/chapter6/5?fw=pt

阅读全文 »

bert tokenizer源码解析

做序列标注时,label和token之间的对应关系至关重要。但是大多数tokenizer都会对原始的字符序列做一定的修改,这对保持token和label之间的对应关系造成了一定的影响。因此,有必要对tokenizer的细节行为有一个清楚的认识。本文以bert tokenzier为例说明里面的细节。

阅读全文 »

pytorch进程间通信

2023年,训练模型时,使用DDP成为标准的炼丹师技能。DDP本身呢是依赖torch.distributed提供的进程间通信能力。所以,理解torch.distributed提供的进程间通信的原理,对理解DDP的运行机制有很大的帮助。官方的tutorial中,实现了依靠torch.distributed实现DDP功能的demo代码,学习一下,很有裨益。本文将会分成两部分,首先介绍torch.distributed提供的基本功能。然后介绍用torch.distributed实现demo版的DDP。

阅读全文 »

gpt2解码参数解析

使用gpt2进行文本生成时,有几个参数可调,本文简要总结了一下这些个参数的作用。

阅读全文 »

NLP模型训练时数据预处理的教训

一个比较难debug的问题。

阅读全文 »

python中那些让你想扇自己两耳光的错误

总结一下python中超级低级的错误。

阅读全文 »