PyCaret:低代码自动化的机器学习工具

这篇具有很好参考价值的文章主要介绍了PyCaret:低代码自动化的机器学习工具。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

PyCaret简介

随着ChatGPT和AI画图的大火,机器学习作为实现人工智能的底层技术被大众越来越多的认知,基于机器学习的产品也越来越多。传统的机器学习实现方法需要较强的编程能力和数据科学基础,这使得想零基础尝试机器学习变得非常困难。

PyCaret:低代码自动化的机器学习工具

机器学习、深度学习和人工智能(AI)的关系

PyCaret 是 Python 中的开源低代码机器学习库,可自动执行机器学习工作流程。它是一种端到端的机器学习和模型管理工具,可以成倍地加快实验周期并提高您的工作效率。与其他开源机器学习库相比,PyCaret 是一个高度封装的低代码库,可以用几行代码代替数百行代码。这使得机器学习实验呈指数级快速和高效。 

PyCaret的设计和简单性受到了公民数据科学家这一新兴角色的启发,这是Gartner首次使用的术语。公民数据科学家是超级用户,他们可以执行简单和适度复杂的分析任务,而这些任务以前需要更多的专业知识。经验丰富的数据科学家通常很难找到,而且雇佣成本也很高,但公民数据科学家可以成为缓解这一差距并解决商业环境中与数据相关的挑战的有效途径。

PyCaret:低代码自动化的机器学习工具

Pycaret的主要功能,多数可以以极少的代码自动化实现

Pycaret的特色

低代码量

与其他开源机器学习库相比,PyCaret是一个替代的低代码库,可以用很少的单词替换数百行代码。这使得机器学习实验能以指数级的速度和效率进行。PyCaret本质上是一个Python包装器,围绕着几个机器学习库和框架,如scikit learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等等。除模型选择外,调参,数据预处理等等也可以通过同样的方式进行处理。

在常规的机器学习方法中,如果想要比较多个机器学习算法的准确率和耗时等信息,需要挨个进行调用或编写,然后人工进行对比,而在PyCaret中仅需一行代码即可完成。

PyCaret:低代码自动化的机器学习工具

利用Pycaret一行代码测试大量机器学习算法和模型的准确率和耗时请看

跨环境使用

PyCaret 是 Python 中的部署就绪库,这意味着在 ML 实验中执行的所有步骤都可以使用可重现并保证生产的管道重现。管道可以保存为可跨环境传输的二进制文件格式。

PyCaret:低代码自动化的机器学习工具

Pycaret训练的模型可以保存为二进制管道

无缝衔接主流数据平台

PyCaret 及其机器学习功能与支持 Python 的环境无缝集成,例如 Microsoft Power BI、Tableau、Alteryx 和 KNIME 等。这为这些 BI 平台的用户提供了巨大的力量,他们现在可以将 PyCaret 集成到他们现有的工作流中,并轻松添加一层机器学习。

PyCaret适用人群

  • 希望提高生产力的经验丰富的数据科学家。
  • 喜欢低代码机器学习解决方案的公民数据科学家。
  • 想要构建快速原型的数据科学专业人士。
  • 数据科学和机器学习的学生和爱好者。

安装 PyCaret

准备工作

PyCaret在以下64位系统上得到测试和支持,因此,安装前需要先准备好环境支持。

1.系统环境:Windows7+/unbantu 16.04+

2.编程环境:Python3.6-3.8/Python 3.9 for Ubuntu only

最简安装

最简单安装方式是使用Python的pip包管理器安装PyCaret,只需要一行代码:

pip install pycaret

虚拟环境安装

安装PyCaret是在PyCaret中构建第一个机器学习模型的第一步。由于PyCaret会自动安装所有硬依赖项,为了避免与其他软件包发生潜在冲突,强烈建议使用虚拟环境,例如conda环境。使用隔离环境,可以独立于以前安装的任何Python包安装特定版本的pycaret及其依赖项。

# 创建conda环境
conda create --name yourenvname python=3.8

# 激活上一行创建的环境
conda activate yourenvname

# 安装Pycaret
pip install pycaret

# 创建一个笔记本内核并调用虚拟环境
python -m ipykernel install --user --name yourenvname --display-name "display-name"

PyCaret适用的问题

分类问题

分类问题指的是可以将具有不同特征的元素分类成组的一类的问题。其目标是预测离散的、无序的分类标签。一些常见的用例包括预测客户违约(是或不是),预测客户流失(客户将离开或留下),发现的疾病(预后积极或消极),花的类型等。

PyCaret:低代码自动化的机器学习工具

图中分界线尝试将红点和黑点分开,找到这种分界线是就是一种分类问题

回归问题

回归问题是指将用于估计因变量(通常称为 "结果变量",或 "目标")和一个或多个自变量(通常称为 "特征","预测因素",或 "协变量")之间的关系。回归的目的是预测连续值,如预测销售金额、预测数量、预测温度等。

PyCaret:低代码自动化的机器学习工具

图中红线对点进行了回归,如何找到最适合的红线是一个回归问题

聚类问题

聚类问题是将一组对象分组,使同一组(也称为聚类)的对象比其他组的对象更相似。这包括找到共同表达的酶或者适合同一个环境的植物等。

PyCaret:低代码自动化的机器学习工具

PyCaret解决聚类问题的可视化呈现,不同颜色代表不同聚类

异常检测问题

异常检测是一种用于识别罕见的项目、事件或观察结果的问题,这些项目、事件或观察结果与大多数数据有很大的不同,会引起人们的怀疑。通常情况下,异常项目将转化为某种问题,如银行欺诈、结构缺陷、医疗问题或某些少见的错误。

PyCaret:低代码自动化的机器学习工具

PyCaret解决异常检测问题的可视化呈现,黄色为异常数据

主题模型问题

自然语言处理中有一类用来分析文本数据,产生可以用于训练文本数据的主题模型。主题模型是一种统计模型,用于发现文档集合中的抽象主题。

PyCaret:低代码自动化的机器学习工具

词云就是这种主题模型的一种表现方式

关联规则挖掘问题

这类问题可以理解为发现数据集中变量之间的关系。它旨在使用一些不同的度量来识别在数据库中发现的强规则。

PyCaret:低代码自动化的机器学习工具

图中所示为数据之间的包含关系

时间序列预测

时间序列预测是基于按时间顺序索引(或列出或绘制)的一系列数据点,预测在后续时间的数据点,包括海洋潮汐的高度、太阳黑子的数量和道琼斯工业平均指数的每日收盘值的预测。

PyCaret:低代码自动化的机器学习工具

图中黑色为已有数据,蓝色为预测数据

一行代码实现多模型比较

比较不同模型在同一任务中的表现一直是机器学习中需要得到关注的问题,这一问题在PyCaret中可以通过一行代码得到解决,这可以大大加快实验机器学习模型的速度。

best = compare_models()

PyCaret:低代码自动化的机器学习工具

用多种指标描述不同模型在同一时间序列预测问题的表现

多种可视化方式分析模型和数据

在训练完成模型后,PyCaret集成了多种用于评价模型、数据和特征重要性的可视化方式,秩序一行代码即可实现。

evaluate_model(best)

PyCaret:低代码自动化的机器学习工具

对回归模型、所用数据和特征重要性的可视化呈现

一行代码进行参数调优

对参数进行调优在机器学习模型训练中占有较大工作量,Pycaret可以选择不同迭代次数、参数搜索方式等进行参数优化,而且仅需一行代码即可实现。

tuned_dt = tune_model(dt, n_iter = 50)

PyCaret:低代码自动化的机器学习工具

参数调优结果

一行代码进行模型融合

blender = blend_models([lr, dt, knn])

PyCaret:低代码自动化的机器学习工具

模型融合结果

结语

PyCaret是我用过效率最高的机器学习工具,它在高度封装和高度自动化的情况下较好的保留了可配置性。我认为,PyCaret端到端的属性适合刚刚入门机器学习领域或者想要应用已有的机器学习模型和算法处理实际问题的人们。文章来源地址https://www.toymoban.com/news/detail-441377.html

到了这里,关于PyCaret:低代码自动化的机器学习工具的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • [Linux 基础] make、Makefile自动化构建代码工具

    [Linux 基础] make、Makefile自动化构建代码工具

    make是一个命令,Makefile是一个在当前目录下存在的一个具有特定格式的文本文件。 在VS编译器中,我们在编译执行代码的时候ctrl+f5就可以了,而在linux中我们需要使用gcc/g++ 配合选项并需要正确的格式才可以完成编译,这样是比较麻烦的,我们make与Makefile可以实现自动化构建

    2024年02月08日
    浏览(17)
  • 自动化测试基础知识:什么是自动化测试?需要学习哪些知识与工具!

    自动化测试基础知识:什么是自动化测试?需要学习哪些知识与工具!

    1、自动化测试概念 自动化测试是把以人为驱动的测试行为转化为机器执行的一种过程。通常, 在设计了测试用例并通过评审之后,由测 试人员根据测试用例中描述的规程一步步执行测试,得到实际结果与期望结果的比较。简言之,自动化测试就是让被测试的软件自己运行起

    2024年02月04日
    浏览(12)
  • Azure - 自动化机器学习AutoML Azure使用详解

    Azure - 自动化机器学习AutoML Azure使用详解

    自动化机器学习,简称为AutoML,旨在将机器学习模型的开发中繁琐且重复的任务自动化。这使得数据科学家、分析师以及开发人员能够构建高度可扩展、高效和高性能的ML模型,且不牺牲模型的质量。Azure 机器学习的AutoML功能是基于Microsoft Research团队的前沿技术而开发的。 关

    2024年02月08日
    浏览(9)
  • 实现自动化测试中的AI与机器学习支持

    自动化测试是软件开发过程中不可或缺的一部分,它可以有效地提高软件质量,降低开发成本。然而,随着软件系统的复杂性不断增加,传统的自动化测试方法已经无法满足需求。因此,研究人员和企业开始关注AI和机器学习技术,以提高自动化测试的效率和准确性。 在本文

    2024年02月20日
    浏览(12)
  • 使用机器学习实现自动化测试:提高效率和准确性

    在软件开发的过程中,测试是一个至关重要的环节。传统的手动测试往往耗时耗力,而且存在人为疏漏的可能。为了解决这些问题,许多团队开始将机器学习应用于自动化测试,以提高测试效率和准确性。 本文将介绍如何使用机器学习技术来实现自动化测试,从而显著提升软

    2024年02月15日
    浏览(10)
  • 人工智能未来:如何应对自动化和机器学习的冲击

    人工智能(Artificial Intelligence, AI)是一种计算机科学的分支,旨在模仿人类智能的思维和行为。AI的目标是创建智能机器,使它们能够执行人类智能的任务,包括学习、理解自然语言、识别图像、解决问题、自主决策等。随着数据量的增加、计算能力的提升和算法的创新,人工智

    2024年02月19日
    浏览(16)
  • Hamibo自动化手机工具的使用及介绍【自定义代码解析】

    Hamibo自动化手机工具的使用及介绍【自定义代码解析】

    Hamibot 是一款开源的自动化手机测试脚本项目,是一款 Android 平台 JavaScript 自动化工具,无需 root,无需编程基础,在脚本市场内安装脚本即可运行。适用于安卓系统的自动化工具,能操控任意 APP,实现自动化操作,提高工作效率,可以允许脚本查询在手机上完美的运行,兼

    2024年02月09日
    浏览(8)
  • 自动化机器学习流水线:基于Spring Boot与AI机器学习技术的融合探索

    自动化机器学习流水线:基于Spring Boot与AI机器学习技术的融合探索

    🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式+人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向的学习指导、简历面试辅导、技术架构设计优化、开发外包等服

    2024年04月27日
    浏览(10)
  • 自动化运维工具——Ansible学习(二)

    自动化运维工具——Ansible学习(二)

    目录 一、handlers和notify结合使用触发条件 1.新建httpd.yml文件 2.复制配置文件到ansible的files目录中 3.卸载被控机已安装的httpd 4.执行httpd.yml脚本 5.更改httpd.conf配置文件 6.使用handlers 7.重新执行httpd.yml脚本 8.检查被控机的端口号是否改变 9.handlers也可以触发多个 二、tags 1.通过指定

    2024年02月16日
    浏览(21)
  • AutoKeras(Python自动化机器学习)多模态数据和多任务

    AutoKeras(Python自动化机器学习)多模态数据和多任务

    AutoKeras 拓扑 常规机器学习:scikit-learn示例探索性数据分析和数据预处理,线性回归,决策树 图像分类ResNet模型示例,合成数据集DenseNet模型示例 绘图线性回归和决策树模型 使用Python工具seaborn、matplotlib、pandas、scikit-learn进行特征分析,数据处理 Tensorflow和Keras实现多测感知器

    2024年02月21日
    浏览(6)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包