• 当你开始一个新项目时,尤其你不是这个领域的专家时,你很难选择最有前途的方向。
• 不要一开始就尝试设计和构建完美的系统,而是尽可能快的建立和训练一个基础的系统(几天之内),然后使用错误分析。帮助你找到最优的方向,并迭代改进你的算法。
• 通过手动检查约100个开发集的样本来进行错误分析。计算错误分类的主要原因的比例,然后使用此信息来选择你需要修复的错误类型。
• 考虑将开发集设置为一个Eyeball开发集和Blackbox开发集,并对Eyeball开发集进行手动检查误差分析,如果算法在Eyeball上表现的性能比在Blackbox上表现的性能要好,说明你的算法在Eyeball开发集上过拟合了,这是,你需要从Blackbox中选择数据放入Eyeball中。
• Eyeball开发集应该设置的足够大,这样你就可以得到足够被算法错误分类的数据,然后进行手动分析。对于许多应用程序来说,Blackbox开发集有1000-10000个样本就差不多了。
• 如果你的开发集不足以划分,就把它划分为一个Eyeball集,并进行手动误差分析,模型选择,和参数调整。