资讯中心 Info
当前位置:爱尚教育 > 资讯中心 >
sk-learn之数据集及数据集的划分
发布日期:2023-10-17

scikit-learn 是基于 Python 语言的机器学习工具。

 

优势:

  • 简单高效的数据挖掘和数据分析工具
  • 可供大家在各种环境中重复使用
  • 建立在 NumPy ,SciPy 和 matplotlib 上
  • 开源,可商业使用 - BSD许可证

 

scikit-learn常用数据集获取方法

 

  • sklearn.datasets.load_XX():获取小规模数据集
  • sklearn.datasets.fetch_XX():加载大规模数据集
  • 返回值load和fetch返回的数据类型是sklearn.utils.Bunch(字典格式)
  •  data:特征数据,[样本 * 特征值]的二维ndarray数组
  •  target:标签数组,一维ndarray数组
  •  DESCR:数据描述
  •  feature_names:特征名称
  •  target_names:标签名称

数据集划分

 

机器学习一般将数据集划分为两个部分:

 

  • 训练数据:用于训练、构建模型,划分比例:70% 80%
  • 测试数据:在模型评估时使用, 划分比例:30% 20%
  • sklearn.model_selection.train_test_split(arrays, *options)
  •  x数据集的特征值
  •  y数据集的目标值
  •  test_size测试集的大小,float类型
  •  返回 训练集特征值、测试集特征值、训练集目标值、测试集目标值