数据集是机器学习的重要组成部分。如果你想建立任何机器学习系统,你需要获取数据(例如来自某些公共资源)或自行收集数据。所有用于构建或测试ML模型的数据都称为数据集。基本上,数据科学家将他们的数据集分成三个独立的组:

训练数据:训练数据用于训练模型。这意味着ML模型可以获得数据并学习检测模式或确定哪些特征在预测期间最为重要,训练数据的任务是帮助机器学习模型定参数。

验证数据:验证数据用于调整模型参数并比较不同模型以确定最佳模型参数。验证数据应与训练数据不同,它不应在训练阶段使用。否则,该模型会过度拟合,并且不能很好地推广到新的(生产)数据。

测试数据:这个过程看起来可能很乏味,但总是有第三个最终测试集(通常也称为“Hold-Out”)。一旦选择最终模型来模拟模型在完全看不见的数据上的行为,即在构建模型时不使用的数据点,或者甚至在决定选择哪个模型时使用它。


       停用词过滤
       chunker
       字符编码识别
       文本解剖
       张量
       标量
       AI数据
       互联网金融
       在线交易
       线上线下