一个比较难debug的问题。
一个文本分类服务,封装成了grpc服务后,发现在一个类别上的准确性下降了30%。
debug后,发现原因在于,grpc服务中会去除句子中的“\n”,直接加载模型测试的时候没有这个操作。 恰好,这个类别的训练数据相当大比例句子结尾是有“\n”的。导致在训练的时候,模型抄了近路,依赖这个显式的特征来预测。
解决办法就是在dataset中添加去除不可见字符的预处理操作。