NLP模型训练时数据预处理的教训


一个比较难debug的问题。

一个文本分类服务,封装成了grpc服务后,发现在一个类别上的准确性下降了30%。

debug后,发现原因在于,grpc服务中会去除句子中的“\n”,直接加载模型测试的时候没有这个操作。 恰好,这个类别的训练数据相当大比例句子结尾是有“\n”的。导致在训练的时候,模型抄了近路,依赖这个显式的特征来预测。

解决办法就是在dataset中添加去除不可见字符的预处理操作。


原创文章,转载请注明出处,否则拒绝转载!
本文链接:抬头看浏览器地址栏

上篇: python中那些让你想扇自己两耳光的错误
下篇: gpt2解码参数解析