猿创征文|【Python数据科学快速入门系列 | 05】常用科学计算函数

这篇具有很好参考价值的文章主要介绍了猿创征文|【Python数据科学快速入门系列 | 05】常用科学计算函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这是机器未来的第44篇文章

原文首发地址:https://blog.csdn.net/RobotFutures/article/details/126615267

猿创征文|【Python数据科学快速入门系列 | 05】常用科学计算函数

1. 概述

本文以鸢尾花的数据预处理为例,描述了科学计算在机器学习使用的示例。

2. 加载数据集

以鸢尾花数据集为例。
鸢尾花数据集有4个特征,1个标签,特征为sepal_length,sepal_width,petal_length,petal_width,分别为花萼长度、花萼宽度,花瓣长度、花瓣宽度,标签为鸢尾花的分类,0,1,2分别代表山鸢尾(Setosa)、变色鸢尾(Versicolor)、维吉尼亚鸢尾(Virginical)

import numpy as np

data = []
with open(file='iris.txt',mode='r') as f:
    f.readline()
    while True:
        line = f.readline()
        if line:
            data.append(line.strip().split(','))
        else:
            break

data = np.array(data,dtype=float)

# 使用切片提取前4列数据作为特征数据
X_data = data[:, :4]  # 或者 X_data = data[:, :-1]

# 使用切片提取最后1列数据作为标签数据
y_data = data[:, -1]

data.shape, X_data.shape, y_data.shape
((150, 5), (150, 4), (150,))

3. 查看数据特征

3.1 查看首5行数据

X_data[0:5], y_data[0:5]
(array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2]]),
 array([0., 0., 0., 0., 0.]))

3.2 查看数据集每个特征的最大值

# axis = 0指定X轴,取每列的最大值
np.max(X_data, axis=0)
array([7.9, 4.4, 6.9, 2.5])

上面的取值就是每个特征的最大值,数据集的花萼长度最大值为7.9,花萼宽度最大值为4.4,花瓣长度最大值为6.9,花瓣宽度最大值为2.5

如果去掉轴axis参数,就是取数据集所有数据中的最大值,会综合所有列一起的最大值。

np.max(X_data)
7.9

3.3 查看每个特征的最小值

np.min(X_data, axis=0)
array([4.3, 2. , 1. , 0.1])

上面的取值就是每个特征的最小值,数据集的花萼长度最小值为4.3,花萼宽度最小值为2,花瓣长度最小值为1,花瓣宽度最小值为0.1

3.4 查看特征均值

np.mean(X_data, axis=0)
array([5.84333333, 3.05733333, 3.758     , 1.19933333])

3.5 查看特征百分位数

百分位数是统计中使用的度量,表示小于这个值的观察值样本数量占总体的百分比。

# 25%
np.percentile(X_data, 0.25, axis=0)
array([4.33725, 2.0745 , 1.03725, 0.1    ])
# 50%
np.percentile(X_data, 0.50, axis=0)
array([4.3745, 2.149 , 1.0745, 0.1   ])
# 75%
np.percentile(X_data, 0.75, axis=0)
array([4.4    , 2.2    , 1.11175, 0.1    ])

3.6 查看特征数据分布波动

np.std(X_data, axis=0)
array([0.82530129, 0.43441097, 1.75940407, 0.75969263])

从标准差可以看到特征花萼宽度标准差为0.43441097数据波动最小,花瓣长度标准差数据为1.75940407,数据波动最大。

3.8 查看特征样本数量

X_data.shape
(150, 4)

可以看到样本数量为150,每个样本4个特征

3.9 查看标签数据分布

通过np.unique分别获得唯一ID和对应的样本数量,然后通过zip、dict转换为字典。

unique, count = np.unique(y_data, return_counts=True)
label_count = dict(zip(unique, count))
label_count
{0.0: 50, 1.0: 50, 2.0: 50}

可以看到标签是均衡的,每个分类的样本数均是50.

4. 其它常用的科学函数

函数 说明 示例
np.sum 求累加 np.sum((y_pred - y_data)**2)
np.exp 以自然常数e为底的指数函数 np.exp**2
np.var 求方差 np.var(X_data, axis=0)
np.round 四舍五入 np.round(np.var(X_data, axis=0), decimals=2)
np.square 求平方 np.square(X_data)
np.abs 求绝对值 np.abs([1, -1, -7.9, 6])
np.argmax 求最大值的位置索引 np.argmax(X_data, axis=0)
np.argmin 求最小值的位置索引 np.argmin(X_data, axis=0)

5. 总结

以上就是numpy科学函数的简单介绍,更多api在将来的使用中再描述。

写在末尾:

  • 博客简介:专注AIoT领域,追逐未来时代的脉搏,记录路途中的技术成长!
  • 专栏简介:从0到1掌握数据科学常用库Numpy、Matploblib、Pandas。
  • 面向人群:AI初级学习者
  • 专栏计划:接下来会逐步发布跨入人工智能的系列博文,敬请期待
    • Python零基础快速入门系列
    • Python数据科学系列
    • 人工智能开发环境搭建系列
    • 机器学习系列
    • 物体检测快速入门系列
    • 自动驾驶物体检测系列

猿创征文|【Python数据科学快速入门系列 | 05】常用科学计算函数文章来源地址https://www.toymoban.com/news/detail-407077.html

到了这里,关于猿创征文|【Python数据科学快速入门系列 | 05】常用科学计算函数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 猿创征文|“云“创新展望:数据之浩瀚

    💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! AWS亚马逊云科技提供全球覆盖广泛、服务深入的云平台,全球数据中心提供超过 200 项功能齐全的服务 连续 11 年被 Gartner 评为\\\"全球云计算领导者\\\" ;2021 年全新 Gartner 魔力象限中被评为\\\"云基础设施与平台服务(Iaas Pa

    2023年04月24日
    浏览(93)
  • 猿创征文|Hadoop大数据技术综合实验

    当前互联网应用中,万维网(World Wide Web)应用占据了绝大部分的份额。万维网应用对外提供服务需要架设Web服务器软件。典型的Web服务器软件有Apache、Nginx等。Web服务器软件在运行过程中会写入各种日志到磁盘文件中。例如,Apache Web服务器软件运行过程中,会产生access.log文

    2024年02月03日
    浏览(48)
  • 猿创征文|大数据开发必备的数据采集工具汇总

    随着大数据近几年的发展,已经在国内外的开发市场积累出一大批大数据开发的技术型人才,不论是批处理还是流处理各大公司都研究出一套专门解决自身公司业务的大数据解决方案。它们是市面上大数据组件的融合碰撞产生的适合自身的。 在数据处理的最前端一定是数据的

    2024年02月01日
    浏览(60)
  • 猿创征文|Python-sklearn机器学习之旅:我的第一个机器学习实战项目

    目录 前言 一、从目的出发 1.导入数据 二、项目开启 1.导入数据

    2024年01月24日
    浏览(57)
  • 猿创征文|vue vant-ui数据列表上拉加载更多,下拉刷新功能

    ⭐️⭐️⭐️   作者: 船长在船上 🚩🚩🚩   主页: 来访地址船长在船上的博客 🔨🔨🔨   简介: CSDN前端领域优质创作者,资深前端开发工程师,专注前端开发,在CSDN总结工作中遇到的问题或者问题解决方法以及对新技术的分享,欢迎咨询交流,共同学习。 🔔🔔🔔

    2023年04月12日
    浏览(42)
  • 猿创征文|工具百宝箱-数据库连接工具-接口调试与测试工具-抓包工具

    工具没有绝对意义上的好坏之分,只有需求适合与否,这些需求可能包括:功能、价格、安全、服务、技术等诸多方面。 技术在更新迭代,开发者工具也在更新迭代。一个高效趁手的工具在工作上锦上添花。给大家分享一下我平时用的一部分工具。 官方活动入口:「猿创征

    2023年04月27日
    浏览(42)
  • 猿创征文 | Shell编程【上篇】

    目录 1,Shell编程 1.1:简介 1.1.1:shell解释器 1.2:快速入门 1.2.1:编写脚本 1.2.2:执行shell脚本 1.3:shell变量 1.3.1:简介 1.3.2:使用变量 1.3.3:删除变量 1.3.4:只读变量  1.4:字符串 1.4.1:单引号 1.4.2:双引号  1.4.3:获取字符串长度   1.4.4:提取子字符串  1.5:传递参数 1

    2024年02月02日
    浏览(59)
  • 猿创征文 |【Linux】常用命令

    🍁 博客主页: 👉@不会压弯的小飞侠 ✨ 欢迎关注: 👉 点赞 👍 收藏 ⭐ 留言 ✒ ✨ 系列专栏: 👉Linux专栏 ✨ 欢迎加入社区: 👉不会压弯的小飞侠 ✨ 人生格言:知足上进,不负野心。 🔥 欢迎大佬指正,一起学习!一起加油! command [-options] [parameter] command:命令名 [-o

    2024年01月16日
    浏览(39)
  • 以太坊是什么?|猿创征文

    以太坊是一个可编程、可视化、更易用的区块链,它允许任何人编写智能合约和发行代币。 在以太坊(Ethereum)出现之前,各种区块链应用的功能非常有限,例如,比特币和其他加密货币都只是纯粹的数字货币。 以太坊(Ethereum)创始人Vitalik Buterin将以太坊(Ethereum)设想为开发人员

    2024年02月02日
    浏览(73)
  • 猿创征文|ZooKeeper(伪)集群搭建

    前言:zookeeper作为一款分布式协调中间件,其重要性不言而喻,因此需要保证其高可用性。所以一般都会搭建zookeeper集群,今天叶秋带领大家在一台服务器上搭建伪集群。 目录 1、 搭建要求 2、 准备工作 3、 配置集群  4 启动集群  5 模拟集群异常 1、 搭建要求 真实的集群是

    2024年02月01日
    浏览(71)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包