【scikit-learn基础】--概述

这篇具有很好参考价值的文章主要介绍了【scikit-learn基础】--概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Scikit-learn是一个基于Python的开源机器学习库,它提供了大量的机器学习算法和工具,方便用户进行数据挖掘、分析和预测。

Scikit-learn是基于另外两个知名的库 ScipyNumpy的,
关于 ScipyNumpy 等库,之前的系列文章中有介绍:

  1. Scipy 基础系列
  2. Numpy 基础系列

1. 概要

自从AlphaGo再度带起机器学习和AI的热潮以来,我们听到最多的机器学习框架是 TensorFlowPyTorch以及Keras等等。

Scikit-learn与它们相比,知名度要低不少,这是因为Scikit-learn库关注的是传统的机器学习领域中经典的,被广泛应用和验证的算法。
它完全不涉及TensorFlowPyTorch以及Keras等框架所在的深度学习领域。

虽然看起来Scikit-learn似乎远远不如那些流行的深度学习框架,
但从我个人的经验来看的话,学习和掌握Scikit-learn的意义远远大于那些深度学习框架。

首先,Scikit-learn历史悠久,发展至今,不仅提供了丰富的文档和参考样例,甚至连训练数据都准备好了,随时都可以拿来实验机器学习算法。

其次,深度学习虽好,但是使用要求也高。
除了掌握其算法,还必须有大量的数据高性能的硬件,这绝不是个人和普通企业所能提供的。
未来,大概率是由几个头部大企业训练出模型,然后开放API给我们使用,个人和中小企业训练自己的深度学习模型的概率并不高。

Scikit-learn则与之不一样,它所包含的传统机器学习中的很多优秀算法并不需要海量的数据,在数据量不大的情况下依旧可以训练出优秀的模型。

最后,就我自己平时的数据分析相关项目的实践来看,Scikit-learn是一个真正称手的工具。
我平时的项目中会接触到各类数据,比如气象数据,销售数据,还有一些交易类的数据等等,
由于服务的客户规模不大,所以数据量一般最多也就千万级别。
使用Scikit-learn,能够方便快速的从这些数据中分析出有意义结果。

举个不太恰当的例子,目前流行的深度学习框架相对于Scikit-learn,就像飞机相对于自行车或小汽车
学会开飞机后,可能实操的机会并不多(除非你在大厂的AI部门);
但是学会骑车和开车,总会有用到它的地方,而且由于其便利简单,还会越用越多。

2. 主要模块

Scikit-learn的主要功能包括数据预处理,模型选择,数据降维,分类,回归和聚类等。

  • 数据预处理包括数据的特征提取、归一化、标准化等。
  • 模型选择是对给定参数和模型进行比较、验证和选择,以提升预测精度。
  • 数据降维是通过降维技术来减少要考虑的随机变量的个数,常见的应用场景有可视化处理、效率提升等。
  • 分类是给对象指定所属类别范畴的有监督学习,常见的应用场景有垃圾邮件检测、图像识别等。
  • 回归是预测与给定对象相关的连续属性的值,常见的应用场景有预测股票价格、预测二手房交易价格等。
  • 聚类是自动识别具有相似属性的给定对象,并将其分组,属于无监督学习,常见的应用场景有顾客细分、实验结果分组等。

从功能上看,涵盖了机器学习从数据处理开始,到各类模块训练算法,最后到模型的验证和调优等完整的生命周期。

3. 系列文章规划

Scikit-learn的子模块划分非常细,从命名空间来看的话,大概有接近40个模块
分别介绍各个子模块意义不大,不如直接看官方文档,本系列的文章打算从使用者的角度来介绍它。

先从数据和数据处理的角度入手,
然后结合自己工作中的实际经验介绍Scikit-learn中的一些机器学习的算法
最后介绍训练模型时和训练之后对模型的一些修正和调优的方法。

希望能够对喜爱数据分析的朋友们有所帮助!文章来源地址https://www.toymoban.com/news/detail-747843.html

到了这里,关于【scikit-learn基础】--概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【scikit-learn基础】--『预处理』之 正则化

    数据的 预处理 是数据分析,或者机器学习训练前的重要步骤。 通过数据预处理,可以 提高数据质量 ,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据 ,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性

    2024年02月04日
    浏览(52)
  • 【scikit-learn基础】--『数据加载』之玩具数据集

    机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解。 不管是在学习还是实际工作中, 准备数据 永远是一个枯燥乏味的步骤。 scikit-learn 库显然看到了这个痛点,才在它的 数据加载 子模块中为我们准备了直接可用的数据集。 在它的 数据加载 子模

    2024年02月05日
    浏览(60)
  • 【scikit-learn基础】--『数据加载』之真实数据集

    上一篇介绍了 scikit-learn 中的几个玩具数据集,本篇介绍 scikit-learn 提供的一些真实的数据集。 玩具数据集:scikit-learn 基础(01)--『数据加载』之玩具数据集 与玩具数据集不同,真实的数据集的数据不仅数据特征多,而且数据量也比较大, 所以没有直接包含在 scikit-learn 库中。

    2024年02月05日
    浏览(42)
  • 【scikit-learn基础】--『预处理』之 数据缩放

    数据的 预处理 是数据分析,或者机器学习训练前的重要步骤。 通过数据预处理,可以 提高数据质量 ,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据 ,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性

    2024年02月04日
    浏览(47)
  • 【scikit-learn基础】--『预处理』之 标准化

    数据的 预处理 是数据分析,或者机器学习训练前的重要步骤。 通过数据预处理,可以 提高数据质量 ,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据 ,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性

    2024年02月05日
    浏览(45)
  • 【scikit-learn基础】--『数据加载』之样本生成器

    除了内置的数据集, scikit-learn 还提供了随机样本的生成器。 通过这些生成器函数,可以生成具有特定特性和分布的随机数据集,以帮助进行机器学习算法的研究、测试和比较。 目前, scikit-learn 库( v1.3.0 版)中有 20个 不同的生成样本的函数。 本篇重点介绍其中几个具有代

    2024年02月05日
    浏览(46)
  • 【数据科学】Scikit-learn

    Scikit-learn 是 开源的Python库 ,通过统一的界面实现 机器学习 、 预处理 、 交叉验证及可视化算法 。   以上是使用 scikit-learn 库 进行 k-最近邻(KNN)分类 的流程,得到 KNN 分类器在 iris 数据集上的预测准确率。    Scikit-learn 处理的数据是 存储为 NumPy 数组或 SciPy 稀疏矩阵

    2024年02月07日
    浏览(47)
  • scikit-learn实现线性回归

    要学习scikit-learn,我们必须要到scikit-clearn的官网中去查看公式和原理 scikit-learn 官网 scikit-learn 中文社区 进入官网一以后我们找到回归,然后再有监督学习中找到线性模型 公式: L2范数是指向量中每个元素的平方和的平方根。在数学中,L2范数也称为欧几里得范数,通常用 ∣

    2024年02月04日
    浏览(44)
  • 机器学习库Scikit-learn

    本文目录 3.1 背景知识 3.2 Scikit-learn概述 3.3 Scikit-learn主要用法 3.3.1 基本建模流程 3.3.2 数据预处理 3.3.3 监督学习算法 3.3.4 无监督学习算法 3.3.5 评价指标 3.3.6 交叉验证及超参数调优 3.4 Scikit-learn总结 参考文献 Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装

    2024年02月04日
    浏览(43)
  • 交叉验证以及scikit-learn实现

    交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。 主要有三种方式: 简单交叉验证(HoldOut检验)、 k折交叉验证(k-fold交叉验证)、 自助法。 本文仅针对k折交叉验证做详细解释。 方法 :将原始数据集随机划分成训练集和验证集两部分。比如说

    2024年02月04日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包