【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?

这篇具有很好参考价值的文章主要介绍了【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


本文详细介绍了人工智能、数据分析和深度学习之间的关系,并就数据分析所需的Pandas库做了胎教般的入门引导。祝读得开心!

一、前言

  本文是原 《数据分析大全》、现改名为 《数据分析》 专栏的第二篇,我在写这篇文章的时候突然意识到——单靠我是不可能把数据分析的方方面面都讲得明明白白,只是是我自己知道什么,然后再输出我所明白的知识罢了。所以《数据分析大全》的“大全”两个字还真是担不起,就改成 《数据分析》 了。
  本篇主要介绍数据分析中 Python Pandas 相关知识点,打算通过这一篇帮助大家顺利入门Python Pandas掌握基本的用法和思想
  上一期《数据分析大全》——Numpy基础可能讲的太过侧重代码而忽略了讲解,如果是还未入门的小白可能看完都不知道讲了啥、为什么要讲这些。
  实用性强和门槛低才是好文章的必要因素,像之前的那一篇就太过强调实用了。结果文章是简短了,可除了已经入门或从事相关工作的同行外,没几个能明白讲了啥的。因此,本篇吸取之前的教训,在交稿前又认真地完善了文章的措辞加上段落间的衔接和引例等语句方便小白也能看懂
  让我先来填一下上期的坑,聊聊数据分析和深度学习都有什么区别和联系


二、数据分析和深度学习的区别

  数据分析也好,深度学习也罢,都是一种新的技术,而新技术的产生则是为了解决现实中遇到的问题。我们可以姑且把现实问题分为简单问题复杂问题简单问题,只需要简单分析,我们使用数据分析就够了。而复杂问题,则需要复杂分析,我们这才使用机器学习
  ——那什么是简单问题,什么是复杂问题呢?
  简单问题就比如是今年学院奖学金的评选情况、今天公司的业绩这类问题,数据量不是很大,我们就用数据分析
  而我们天天使用的某宝、某东这类购物APP,它会根据你的历史购物习惯(这里面有着海量的数据),来给推荐你可能感兴趣的商品。那是如何做到的呢?对于这种复杂问题,这类APP背后使用的就是机器学习以及相应的推荐算法


三、人工智能

  人工智能的范围很广,广义上的人工智能泛指通过计算机(机器)实现人的头脑思维,使机器像人一样去决策
  机器学习是实现人工智能的一种技术。在机器学习分很多方法(算法),不同的方法解决不同的问题深度学习是机器学习中的一个分支方法
  总结一下:人工智能、机器学习和深度学习的关系是:人工智能包含机器学习,机器学习包含深度学习(方法),即数据分析>机器学习>深度学习>机器学习


四、深度学习

  深度学习在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。
  举个众人皆知的例子,那就是2016年谷歌旗下DeepMind公司开发的阿尔法围棋(AlphaGo)战胜人类顶尖围棋选手。阿尔法围棋的主要工作原理就是“深度学习”。
【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?,数据分析,数据分析,python,pandas,人工智能,机器学习,数据挖掘,深度学习


五、Pandas

  咳咳,扯远了,本篇文章要讲的Pandas还没说呢。
  在学习任何东西之前,我们都应该明白两个问题——它能干什么?我能用它做什么?
我相信肯定有人和我在入门数据结构时一样,对这个叫“Pandas”的库有很多问题——Pandas是什么?Pandas一词是怎么来的?Pandas是做什么的?…让我们来一起解决这些困惑。
  首先,Pandas是什么?是Panda→熊猫吗?
【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?,数据分析,数据分析,python,pandas,人工智能,机器学习,数据挖掘,深度学习

这听起来很Cool…但很显然我们不可能用熊猫来帮助我们进行数据分析的工作。其实,Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。

  那么,Pandas 一词是怎么来的呢

Pandas 名字的由来衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python 数据分析。总的来说,Pandas 是一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

  听起来明白点了,让我们再来看看 Pandas 究竟是干什么用的

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

  让我们来总结一下:Pandas 是基于 Numpy 创建的 Python 库,为 Python 提供了易于使用的数据结构和数据分析工具只需要记住这句话,就可以继续进行我们接下来的学习了!
【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?,数据分析,数据分析,python,pandas,人工智能,机器学习,数据挖掘,深度学习
  在Python中,我们可以使用以下语句导入 Pandas 库

>>> import pandas as pd

六、Pandas数据结构

6.1 Series - 序列

  首先我们来看看序列Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。Series 由索引(index)和列组成,函数如下:

pandas.Series( data, index, dtype, name, copy)

  让我们对上的参数进行简单的说明
  data:一组数据(ndarray 类型)。
  index:数据索引标签,如果不指定,默认从 0 开始。
  dtype:数据类型,默认会自己判断。
  name:设置名称。
  copy:拷贝数据,默认为 False。
  想想看,要是实现存储任意类型数据的一维数组(如下图),应该怎么实现呢?
【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?,数据分析,数据分析,python,pandas,人工智能,机器学习,数据挖掘,深度学习
  这边附上了实现代码:

>>> s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])

6.2 DataFrame - 数据框

  DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(比如数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)
【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?,数据分析,数据分析,python,pandas,人工智能,机器学习,数据挖掘,深度学习
  我们要是想实现上方的存储不同类型数据的二维数组,可以这么实现:

>>> data = {'Country': ['Belgium', 'India', 'Brazil'], 'Capital': ['Brussels', 'New Delhi', 'Brasília'],'Population': [11190846, 1303171035, 207847528]}

>>> df = pd.DataFrame(data, columns=['Country', 'Capital', 'Population'])

七、输入、输出

7.1 读取/写入CSV

  在解决这个问题前先来了解一下,什么是CSV:

CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)
CSV 是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。

  Pandas 可以很轻松地处理CSV文件

>>> pd.read_csv('file.csv', header=None, nrows=5)
>>> df.to_csv('myDataFrame.csv')

7.2 读取/写入Excel

  在解决问题时,往往涉及到从Excel读取或写入数据,以下给出了相关的代码实现。也有读取内含多个表的Excel中数据的代码实现:

>>> pd.read_excel('file.xlsx')
>>> pd.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet1')
# 读取内含多个表的Excel
>>> xlsx = pd.ExcelFile('file.xls')
>>> df = pd.read_excel(xlsx, 'Sheet1')

7.3 读取和写入 SQL 查询及数据库表

  关于读取和写入 SQL 查询及数据库表的代码如下:

>>> from sqlalchemy import create_engine
>>> engine = create_engine('sqlite:///:memory:')
>>> pd.read_sql("SELECT * FROM my_table;", engine)
>>> pd.read_sql_table('my_table', engine)
>>> pd.read_sql_query("SELECT * FROM my_table;", engine)

read_sql()是 read_sql_table() 与 read_sql_query() 的便捷打包器

>>> pd.to_sql('myDf', engine)

八、调用帮助

  当然,在开发过程中遇到的问题肯定是千奇百怪的。除了在技术论坛上发帖求问求助师兄师姐,我们也要学会自己查看帮助文档
【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?,数据分析,数据分析,python,pandas,人工智能,机器学习,数据挖掘,深度学习
  调用帮助的代码如下:

>>>help(pd.Series.loc)

九、选择(这里可以参考上一篇文章的 Numpy Arrays 相关部分)

9.1 取值

  在取值时,我们可以取序列的值,也可以取数据框的值。以下是取序列值和取数据框子集的代码实现,可以参考一下:

# 取序列的值
>>> s['a']
-5

# 取数据框的子集
>>> df[1:]
 Country Capital Population
 1 India New Delhi 1303171035
 2 Brazil Brasília 207847528

9.2 选取、布尔索引及设置值

9.2.1 按位置

  在我们根据需求选择某些数据时,往往涉及到按行与列的位置选择某值,以下给出了具体的代码:

# 按行与列的位置选择某值
>>> df.iloc[[0],[0]]
'Belgium'
>>> df.iat([0],[0])
 'Belgium'

9.2.2 按标签

  按行与列的名称选择某值的代码实现如下:

# 按行与列的名称选择某值
>>> df.loc[[0], ['Country']]
 'Belgium'
 >>> df.at([0], ['Country']) 
 'Belgium'

9.2.3 按标签/位置

  我们也可以选择某行或者选择某列

# 选择某行
>>> df.ix[2] 
 Country Brazil 
 Capital Brasília 
 Population 207847528

# 选择某列
>>> df.ix[:,'Capital']
 0 Brussels
 1 New Delhi
 2 Brasília 
 >>> df.ix[1,'Capital']
 'New Delhi'

9.2.4 布尔索引

  Pandas支持物理顺序进行选取,也支持通过逻辑进行取值。下面给出了几个例子:

>>> s[~(s > 1)] # 序列 S 中没有大于1的值
>>> s[(s < -1) | (s > 2)] # 序列 S 中小于-1或大于2的值
>>> df[df['Population']>1200000000] # 序列 S 中小于-1或大于2的值

9.2.5 设置值

  还可以设置索引项的值

>>> s['a'] = 6 # 将序列 S 中索引为 a 的值设为6

十、删除数据

  按索引删除序列的值

>>> s.drop(['a', 'c']) # 按索引删除序列的值 (axis=0) 
>>> df.drop('Country', axis=1) # 按索引删除序列的值 (axis=0) 

十一、排序

  基本的增删查改都介绍完了,这里再介绍以下排序。下面给出了按索引排序、按某列的值排序、按某列的值排序的另解的代码:

>>> df.sort_index() # 按索引排序
>>> df.sort_values(by='Country') # 按某列的值排序
>>> df.rank() # 按某列的值排序

十二、查询序列与数据框的信息

12.1 基本信息

  排序也介绍完了,再来说说查询吧。这里给出了获取行、列索引和获取数据框基本信息的两种方法:

>>> df.shape # (行,列))
>>> df.index # 获取索引
>>> df.columns # 获取索引
>>> df.info() # 获取数据框基本信息
>>> df.count() # 获取数据框基本信息

12.2 汇总

  常见的功能实现函数汇总如下:

>>> df.sum() # 合计  
>>> df.cumsum() # 合计 
>>> df.min()/df.max() # 最小值除以最大值
>>> df.idxmin()/df.idxmax() # 最小值除以最大值
>>> df.describe() # 基础统计数据
>>> df.mean() # 平均值
>>> df.median() # 中位数

十三、应用函数

  这里给出了几个常用的函数的调用方法:

>>> f = lambda x: x*2 # 应用匿名函数lambda
>>> df.apply(f) # 应用函数
>>> df.applymap(f)  # 应用函数

十四、数据对齐

14.1 内部数据对齐

  如有不一致的索引,则使用NA值:

>>> s3 = pd.Series([7, -2, 3], index=['a', 'c', 'd'])
>>> s + s3
 a 10.0
 b NaN
 c 5.0
 d 7.0

14.2 使用 Fill 方法运算

  还可以使用 Fill 方法进行内部对齐运算

>>> s.add(s3, fill_value=0)
 a 10.0
 b -5.0
 c 5.0
 d 7.0
>>> s.sub(s3, fill_value=2)
>>> s.div(s3, fill_value=4)
>>> s.mul(s3, fill_value=3)

十五、后记

  本期关于人工智能、数据分析和深度学习的关系人工智能、深度学习的相关内容也介绍完了,本文的重点放在了 Pandas 的快速入门方面,如果能在科研项目、工程开发和日常学习方面帮到大家,就最好不过了!下期会接着介绍Pandas进阶方向的知识(因为这篇写得太多了,就拆成两篇发了)。
  非常感谢大家的阅读,也欢迎大家提出宝贵的建议!我们下周见!文章来源地址https://www.toymoban.com/news/detail-628319.html

到了这里,关于【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能在物流数据分析中的应用:基于人工智能的物流智能监控与分析

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 随着全球经济的快速发展和物流行业的不断壮大,对物流管理的效率与质量的要求也越来越高。传统的物流管理手段已经难以满足现代物流行业的需要,人工智能技术在物流管理中的应用显得尤为重要。 1.2. 文章目的 本文旨

    2024年02月08日
    浏览(55)
  • 数据分析:人工智能篇

    3.1 matplotlib基本绘图操作 3.2 plot的线条和颜色 线条形状设置 字符 线条类型 字符 线条类型 ‘-’ 实线 ‘–’ 虚线 ‘-.’ 虚点线 ‘:’ 点线 ‘.’ 点 ‘,’ 像素点 ‘o’ 圆点 ‘v’ 下三角点 ‘^’ 上三角形 ‘’ 左三角形 ‘’ 右三角形 ‘1’ 下三叉点 ‘2’ 上三叉点 ‘3’

    2024年02月06日
    浏览(53)
  • 数据分析、大数据分析和人工智能之间的区别

    数据分析、大数据分析和人工智能近年来十分热门,三者之间看起来有相似之处,也有不同之处。今天就来谈谈三者间的区别。 数据分析 数据分析是指对数据进行分析,从中提取有价值的信息,以支持企业或组织的决策制定。数据分析可以针对不同的数据来源和类型,包括

    2024年02月06日
    浏览(70)
  • 人工智能安全的数据治理和数据分析

    作者:禅与计算机程序设计艺术 随着人工智能的普及和应用,越来越多的个人和组织使用基于机器学习、深度学习等技术进行各种各样的业务决策、工作指导和服务推荐。然而,随之而来的安全问题也逐渐显现出来,尤其是在对模型训练、模型部署、模型迭代、模型交付等环

    2024年02月09日
    浏览(57)
  • 人工智能:数据分析之数据预处理、分析模型与可视化

    在人工智能和数据科学领域,数据分析是一种核心过程,它帮助我们从大量的数据中提取有价值的信息。数据分析的质量和结果直接影响到决策的效率和准确性。在这篇博客中,我们将详细探讨数据分析的关键步骤,包括数据预处理、分析模型和可视化,并通过实际应用案例

    2024年03月10日
    浏览(71)
  • 【展望】多方计算展望:基于人工智能的数据分析平台

    作者:禅与计算机程序设计艺术 当前,随着人类对社会生活的依赖程度越来越高、信息化水平越来越高,越来越多的个人消费行为被计算机和智能手机等各种设备所代替。而数字经济也正在以惊人的速度发展。尽管如此,人工智能技术在数据驱动下对实体经济产生的深远影响

    2024年02月13日
    浏览(41)
  • 数据分析的未来:机器学习和人工智能的革命

    数据分析是现代科学和工业的核心技术,它涉及到大量的数据收集、存储、处理和分析。随着数据的增长和复杂性,传统的数据分析方法已经不能满足需求。机器学习和人工智能技术正在革命化数据分析领域,为我们提供了更高效、准确和智能的解决方案。 在本文中,我们将

    2024年02月20日
    浏览(143)
  • 探索人工智能在健康数据分析中的新领域:智能医疗咨询

    作者:禅与计算机程序设计艺术 随着全球数字化进程的加快、互联网行业的蓬勃发展、数字健康产品和服务的不断涌现,人工智能(AI)作为一种高技术含量的新兴产业正在引爆全新的经济增长点。而如何利用人工智能技术帮助医疗机构进行健康管理,则是一个亟待解决的问

    2024年02月07日
    浏览(54)
  • 数据分析的未来:人工智能和自动化的融合

    数据分析是现代科学和工业中不可或缺的一部分,它涉及到大量的数据处理、分析和挖掘。随着数据的增长和复杂性,数据分析的需求也在不断增加。人工智能(AI)和自动化技术在数据分析领域的应用也在不断增加,它们为数据分析提供了更高效、更准确的解决方案。在这篇文

    2024年02月19日
    浏览(89)
  • 解锁数据分析的神器:ChatGPT引领人工智能革命

    💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】 🤟 基于Web端打造的:👉轻量化工具创作平台 💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 在当今数字化时代,数据分析成为决策制定和问题解决的关键工具。随着人工智能(AI)的迅猛发展,C

    2024年02月05日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包