NLP模型训练时数据预处理的教训

一个比较难debug的问题。

一个文本分类服务，封装成了grpc服务后，发现在一个类别上的准确性下降了30%。

debug后，发现原因在于，grpc服务中会去除句子中的“\n”，直接加载模型测试的时候没有这个操作。恰好，这个类别的训练数据相当大比例句子结尾是有“\n”的。导致在训练的时候，模型抄了近路，依赖这个显式的特征来预测。

解决办法就是在dataset中添加去除不可见字符的预处理操作。

原创文章，转载请注明出处，否则拒绝转载！
本文链接：抬头看浏览器地址栏

上篇： python中那些让你想扇自己两耳光的错误