【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

这篇具有很好参考价值的文章主要介绍了【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

机器学习(科学计算库)完整教程(附代码资料)主要内容讲述:机器学习(常用科学计算库的使用)基础定位、目标,机器学习概述定位,目标,学习目标,学习目标。机器学习概述,1.3 人工智能主要分支学习目标,学习目标,1 主要分支介绍,2 小结。机器学习概述,1.5 机器学习算法分类学习目标,学习目标,1 监督学习,2 无监督学习。机器学习概述,1.7 Azure机器学习模型搭建实验学习目标,学习目标,Azure平台简介,学习目标。Matplotlib,3.2 基础绘图功能 — 以折线图为例学习目标,学习目标,1 完善原始折线图 — 给图形添加辅助功能,2 在一个坐标系中绘制多个图像。Matplotlib,3.3 常见图形绘制学习目标,学习目标,1 常见图形种类及意义,2 散点图绘制。Numpy,4.2 N维数组-ndarray学习目标,学习目标,1 ndarray的属性,2 ndarray的形状。Numpy,4.3 基本操作学习目标,学习目标,1 生成数组的方法,2 数组的索引、切片。Numpy,4.4 ndarray运算学习目标,学习目标,问题,1 逻辑运算。Numpy,4.6 数学:矩阵学习目标,学习目标,1 矩阵和向量,2 加法和标量乘法。Pandas,5.1Pandas介绍学习目标,学习目标,1 Pandas介绍,2 为什么使用Pandas。Pandas,5.3 基本数据操作学习目标,学习目标,1 索引操作,2 赋值操作。Pandas,5.6 文件读取与存储学习目标,学习目标,1 CSV,2 HDF5。Pandas,5.8 高级处理-数据离散化学习目标,学习目标,1 为什么要离散化,2 什么是数据的离散化。Pandas,5.12 案例学习目标,学习目标,1 需求,2 实现。

全套笔记资料代码移步: 前往gitee仓库查看

感兴趣的小伙伴可以自取哦,欢迎大家点赞转发~


全套教程部分目录:

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】


部分文件图片:

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

机器学习概述

学习目标

  • 了解人工智能发展历程
  • 了解机器学习定义以及应用场景
  • 知道机器学习算法监督学习与无监督学习的区别
  • 知道监督学习中的分类、回归特点
  • 知道机器学习的开发流程

1.5 机器学习算法分类

学习目标

  • 了解机器学习常用算法的分类

根据数据集组成不同,可以把机器学习算法分为:

  • 监督学习

  • 无监督学习

  • 半监督学习

  • 强化学习

1 监督学习

  • 定义:

    • 输入数据是由输入特征值和目标值所组成。

      • 函数的输出可以是一个连续的值(称为回归),
      • 或是输出是有限个离散值(称作分类)。

1.1 回归问题

例如:预测房价,根据样本集拟合出一条连续曲线。

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

1.2 分类问题

例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

2 无监督学习

  • 定义:

    • 输入数据是由输入特征值组成,没有目标值

      • 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
      • 需要根据样本间的相似性对样本集进行类别划分。

举例:

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

  • 有监督,无监督算法对比:

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

3 半监督学习

  • 定义:

    • 训练集同时包含有标记样本数据和未标记样本数据。

举例:

  • 监督学习训练方式:

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

  • 半监督学习训练方式

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

4 强化学习

  • 定义:

    • 实质是make decisions 问题,即自动进行决策,并且可以做连续决策。

举例:

小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。

小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。

主要包含五个元素:agent, action, reward, environment, observation;

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

强化学习的目标就是获得最多的累计奖励

监督学习和强化学习的对比

监督学习 强化学习
反馈映射 输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。 输出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。
反馈时间 做了比较坏的选择会立刻反馈给算法 结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏。
输入特征 输入是独立同分布的。 面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。

拓展概念:什么是独立同分布

独立同分布概念

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

拓展阅读:Alphago进化史 漫画告诉你Zero为什么这么牛:

[

5 小结

In Out 目的 案例
监督学习****(supervised learning) 有标签 有反馈 预测结果 猫狗分类 房价预测
无监督学习****(unsupervised learning) 无标签 无反馈 发现潜在结构 “物以类聚,人以群分”
半监督学习****(Semi-Supervised Learning) 部分有标签,部分无标签 有反馈 降低数据标记的难度
强化学习****(reinforcement learning) 决策流程及激励系统 一系列行动 长期利益最大化 学下棋

1.6 模型评估

学习目标

  • 目标

    • 了解机器学习中模型评估的方法
    • 知道过拟合、欠拟合发生情况

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

1 分类模型评估

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

  • 准确率
    • 预测正确的数占样本总数的比例。
  • 其他评价指标:精确率、召回率、F1-score、AUC指标等

2 回归模型评估

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

均方根误差(Root Mean Squared Error,RMSE)
  • RMSE是一个衡量回归模型误差率的常用公式。 不过,它仅能比较误差是相同单位的模型。

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

举例:

假设上面的房价预测,只有五个样本,对应的
真实值为:100,120,125,230,400
预测值为:105,119,120,230,410

那么使用均方根误差求解得:RMSE=[(100105)2+(120119)2+52+02+102]52=5.495RMSE=\sqrt[2]{\frac{[(100-105)2+(120-119)2+52+02+10^2]}{5}} =5.495

其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)

3 拟合

模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。

在训练过程中,你可能会遇到如下问题:

训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。

3.1 欠拟合

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。

欠拟合(under-fitting)模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来

3.2 过拟合

【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】

机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。

过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳

  • 上问题解答:

    • 训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

4 小结

  • 分类模型评估【了解】

    • 准确率
  • 回归模型评估【了解】

    • RMSE -- 均方根误差
  • 拟合【知道】

    • 举例 -- 判断是否是人

    • 欠拟合

      • 学习到的东西太少
      • 模型学习的太过粗糙
    • 过拟合文章来源地址https://www.toymoban.com/news/detail-841870.html

      • 学习到的东西太多
      • 学习到的特征多,不好泛化

未完待续, 同学们请等待下一期

全套笔记资料代码移步: 前往gitee仓库查看

感兴趣的小伙伴可以自取哦,欢迎大家点赞转发~

到了这里,关于【机器学习】科学库使用第2篇:机器学习概述,学习目标【附代码文档】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】机器学习创建算法第2篇:K-近邻算法【附代码文档】

    机器学习(算法篇)完整教程(附代码资料)主要内容讲述:机器学习算法课程定位、目标,K-近邻算法,1.1 K-近邻算法简介,1.2 k近邻算法api初步使用定位,目标,学习目标,1 什么是K-近邻算法,1 Scikit-learn工具介绍,2 K-近邻算法API,3 案例,4 小结。K-近邻算法,1.3 距离度量学习目标

    2024年03月15日
    浏览(41)
  • 计算机视觉+深度学习+机器学习+opencv+目标检测跟踪(代码+视频)

    计算机视觉、深度学习和机器学习是当今最热门的技术,它们被广泛应用于各种领域,如自动驾驶、医学图像分析、安防监控等。而目标检测跟踪技术则是计算机视觉中的一个重要分支,它可以帮助我们在图像或视频中自动识别和跟踪特定的目标。 下面我们来一一介绍这些技

    2024年02月01日
    浏览(94)
  • 计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)

    第1章:视觉项目资料介绍与学习指南 相关知识: 介绍计算机视觉、OpenCV库,以及课程的整体结构。 学习概要: 了解课程的目标和学习路径,为后续章节做好准备。 重要性: 提供学生对整个课程的整体认识,为学习提供框架和背景。 包括了 计算机视觉/opencv视频 视频对应

    2024年02月05日
    浏览(41)
  • 【机器学习算法】KNN鸢尾花种类预测案例和特征预处理。全md文档笔记(已分享,附代码)

    本系列文章md笔记(已分享)主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习,伴随浅显易懂的数学知识,让大家掌握机器学习常见算法原理,应用Scikit-learn实现机器学习算法的应用,结合场景解决实际问题。包括K-近邻算法,线性回归,逻

    2024年02月19日
    浏览(35)
  • Gradio 机器学习和数据科学开源 Python 库

            Gradio是一个开源的 Python 库,MIT的开源项目,用于构建机器学习和数据科学演示和 Web 应用。         Gradio的定位类似于Streamlit,但是更轻量,因为它推荐的应用场景都是对“单个函数”进行调用的应用,并且不需要对组件进行回调。比如下列场景(以下代码参

    2024年02月06日
    浏览(30)
  • Python数据科学:Scikit-Learn机器学习

    Scikit-Learn使用的数据表示:二维网格数据表 鸢尾花数据集说明: sepal_length:萼片长度 sepal_width:萼片宽度 petal_length:花瓣长度 petal_width:花瓣宽度 species:鸢尾花类型,Iris-setosa(山鸢尾),Iris-versicolor(变色鸢尾),Iris-virginica(维吉尼亚鸢尾) df_iris.head() 样本:鸢尾花数据集矩阵,矩阵

    2024年02月21日
    浏览(32)
  • 数据科学家对AI和机器学习的认知

    作者:禅与计算机程序设计艺术 数据科学家的角色如今已经越来越重要,越来越多的人选择从事这一职业。尽管数据科学家可能并不一定会涉及到所有具体的机器学习或深度学习技术,但他们肩负着许多核心责任,包括收集、分析、理解和处理海量数据、设计并实施有效的数

    2024年02月08日
    浏览(30)
  • 7个用于机器学习和数据科学的基本 Python 库

    推荐:使用 NSDT场景编辑器 助你快速搭建3D应用场景 这篇文章针对的是刚开始使用Python进行AI的人,以及那些有经验的人,但对下一步要学习什么有疑问的人。我们将不时花点时间向初学者介绍基本术语和概念。如果您已经熟悉它们,我们鼓励您跳过更基本的材料并继续阅读

    2024年02月11日
    浏览(31)
  • 数据仓库的数据科学与机器学习:实现智能化的数据分析

    数据仓库是一种用于存储和管理大量结构化数据的系统,它通常用于企业和组织的业务分析和决策支持。数据科学和机器学习是数据分析的两个重要领域,它们可以帮助企业和组织从大量数据中发现隐藏的知识和模式,从而提高业务效率和竞争力。 在过去的几年里,随着数据

    2024年04月13日
    浏览(37)
  • 用ChatGPT科学学习Python和写代码

    你的朋友圈被ChatGPT攻占了吗? ChatGPT最近太火了! ChatGPT是什么? ChatGPT 是一种预训练的语言模型,用于对话生成。它的名字来源于它的两个主要组成部分:「聊天」(chat)和「生成式语言模型」(Generative PretrainedTransformer,GPT)。 通常来说,语言模型是用于预测一句话中下

    2023年04月08日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包