本文共 652 字,大约阅读时间需要 2 分钟。
Scikit-Learn是基于python的机器学习模块,包涵聚类、分类、回归等数学分析模型,可以用于数据预处理、数据处理及数学模型检验等多种用途,是Python机器学习的必备选择。
Python (>= 2.7 or >= 3.3),NumPy (>= 1.8.2),SciPy (>= 0.13.3).
pip是python下的包管理工具,可用于函数库的管理与安装。进入终端或命令行,安装scipy、numpy、scikit-learn:
如果你已经有一个安全的 numpy 和 scipy,安装 scikit-learn 最简单的方法是使用 pippip install -U scikit-learn
scikit-learn自带少量数据集,比如说用于分类分析的鸢尾花数据集和数码数据集、用于回归分析的波士顿房价数据集。
数据集是一个字典类对象,它包括数据以及描述数据的元数据。这些数据被存放在包含n_samples, n_features数组的.data成员中。对于监督学习问题而言,还包括用于储存标签和结果的.target成员。下面以加载鸢尾花数据集和数码数据集为例:
数码数据集由1797个8x8图像数据矩阵组成,每个图像数据矩阵都代表一个手写的数字图像。digits.data是数字图像矩阵,digits.target分别表示digits.data数字图像矩阵分别表示的数字。数组都是numpy数组。
转载地址:http://llxto.baihongyu.com/