2018年7月11日星期三

不平衡数据集的处理

    (先粗略记录)

    数据集不平衡的情况下,需要对模型做一定的处理。如果不做处理,模型预测的评估函数有可能失效,无法学习。
   传统有两种方法:
          1.重复复制数量少的类的数据
          2.删除数量多的类的数据。直到几个类的数据量一致。
   然而这些方法还是有一定缺点的,不能从根本上解决问题。最重要的还是改变评估函数的形式。比如对不同类别预测对错的情况增加不同的权重,从而从根本上解决问题。
    之前的文本作者去匿名化的文章中用的是传统的方法,删除数据来得到对称数据集。而之后利用了改变权重的方法使用非对称数据集,把数据量提升到了原来的十倍,最终结果比原先的准确率提升了5%-7%,进步可以说是相当的大了,比更换各种模型,调超参数,更换输入特征等的提升大得多。