过度拟合是当模型从数据量不足的角度建立假设偏差时,这是一种负面影响而且是一个相当常见和非常重要的问题。

假设你几次访问过一家面包店,而且还没有你最喜欢的蛋糕在那里!你可能会对面包店感到失望,即使其他一千个客户可能会对该产品满意。如果你是一个机器学习模型,那么说你对一些例子过度适应是公平的,开发出一个有偏见的模型,这是你的头脑中的一个表示,与事实相比,这是不准确的。

发生过拟合时,通常意味着该模型将数据中的随机噪声视为重要信号并对其进行调整,这就是为什么随着新数据的恶化(因为噪声不同)。在神经网络或梯度增强等非常复杂的模型中,情况通常如此。

想象一下,建立一个模型来检测提及奥林匹克运动期间特定体育学科的文章。由于你的训练集偏向于有关奥林匹克的文章,因此该模型可能会学习诸如“奥林匹克”这样的词的特征,并且无法检测到不包含该词的正确文章。


       程度副词词典
       否定词词典
       停用词词典
       文章分类
       智能写作
       语音播报
       评论分类
       内容推荐算法
       文本审核
       用户信息审核