0%

21. 关于偏差和方差的实例

思考我们的猫咪分类器。一个理想的分类器(如:人为分类)会在这个任务中有着完美的表现。
假设你的算法表现如下:
• 训练集上的误差 = 1%
• 开发集上的误差 = 11%
这里存在什么问题呢?根据前面章节的定义我们估计它的偏差为1%,方差为10%(=11%-1%)。因此,它的方差很大,分类器在训练集上的错误率很低,但是它不能很好的泛化到开发集上,这被称为过拟合(overfitting)。
现在我们思考下面这个情况:
• 训练集上的误差 = 15%
• 开发集上的误差 = 16%
我们估计偏差为15%,方差为1%。这个分类器适用于训练集,虽然存在15%的误差,但是它在开发集上的误差比在训练集上的误差要高。这个分类器存在着高偏差,低方差,我们认为这个算法是欠拟合(underfitting)。
现在我们再思考这种情况:
• 训练集上的误差 = 15%
• 开发集上的误差 = 30%
我们估计偏差为15%,方差也为15%。这个分类器同时具有高偏差和高方差:它在训练集上的效果不是很好,因此产生了高偏差,然后它在开发集上的效果表现的更差,因此出现高方差,所以这个分类器是同时过拟合/欠拟合的,难以用术语表示。
最后思考这种情况:
• 训练集上的误差 = 0.5%
• 开发集上的误差 = 1%
这个分类器的效果就很好,它的偏差和方差都很低。如果是这种情况,祝贺你!