模型优化
数据的重要性
数据质量决定模型表现的上限!
Always check:
- 数据属性的意义,是否为无关数据
- 不同属性数据的数量级差异性如何
- 是否有异常数据
- 采集数据的方法是否合理,采集到的数据是否有代表性
- 对于标签结果,要确保标签判定规则的一致性(统一标准)
模型优化方法
- 遍历核心参数组合,评估对应模型表现(比如:逻辑回归边界函数考虑多项式,KNN尝试不同的n_neighbors值)
- 扩大数据样本
- 增加或减少数据属性
- 对数据进行降维处理
- 对模型进行正则化处理,调整正则项\(\lambda\)的数值