Python处理大数据——csv文件类型的小技巧

这篇具有很好参考价值的文章主要介绍了Python处理大数据——csv文件类型的小技巧。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

当我们遇到一个超大的csv数据文件的时候,双击打开是不现实的。即使打开csv,只能看到104万行的数据,后面都是隐藏的,所以打开也是没有意义的。如果不打开,又无法查看到表的数据结构,就无法进行下一步的工作,比如数据筛选。

csv可以用来处理可变长的数据吗,python,大数据,开发语言

一、大数据处理工具

对于超百万行,甚至更大的数据,我推荐以下几种工具:

1、Python:pandas在升级为2.0版本之后,对csv处理速度更快了。以前被人诟病的慢有所改进,可以作为首选。

2、SQL或者Access,SQL可视化好,可以清楚地看到数据结构与内容,速度也非常快,但需要简单学习一下SQL语言。

3、power query,excel自带工具,简单快捷,不需要额外生产力。但用起来处理数据的感觉有些吃力,不如前两个。

二、Python处理大数据技巧

1、读取时不要轻易使用encoding参数

此参数对应两个常用值,gbk、utf-8,对应下面截图中两种格式,如果格式不对会报错误。意思为:'gbk’编解码器无法解码位置2中的字节0xbf:非法的多字节序列。

csv可以用来处理可变长的数据吗,python,大数据,开发语言

如果是普通数据量较小的表格,可以直接调用参数,如果表格很大,打不开的情况下,更别说改完格式另存为了,所以尽量先不填此参数(但一般默认都是gbk)

csv可以用来处理可变长的数据吗,python,大数据,开发语言

2、异形表头

在没有打开表的情况下,我们无法得知表格是否为真正的二维表格,例如下面这种情况,读取会报错,意思是识别到第七行有21列。

csv可以用来处理可变长的数据吗,python,大数据,开发语言因为当读取到第四行和第五行的时候,会默认只有一列表格,而到第7行的时候,却又变成了21列,故pandas判断这不是一个正常二维数据结构。

csv可以用来处理可变长的数据吗,python,大数据,开发语言

为了避免此种情况。要利用读取数据的参数delimiter=“\t”,这样数据就被强制转换成一列了,你就能看到你想要读取的数据在第几列了,再将此参数删掉,再用参数header=2就可以搞定了。

data = pd.read_csv(r"C:\Users\ZWD\Desktop\测试\示例.csv",dtype_backend="pyarrow",``delimiter="\t")

csv可以用来处理可变长的数据吗,python,大数据,开发语言

综上所述:完整代码如下

   ``data = pd.read_csv(file,dtype_backend="pyarrow",header=2)``print(data.head(10))

csv可以用来处理可变长的数据吗,python,大数据,开发语言

三、内存溢出

当读取特别大的表时,会提示内存溢出的问题,csv格式较少遇到,xlsx格式可能较多,可以使用下面的方法进行尝试。

1. 分块读取文件

我们可以将文件分成多个块,逐块读取,避免加载整个文件。例如:

chunksize = 100000``for df in pd.read_excel(filez,sheet_name=sheet,chunksize=chunksize)``# 对分块进行处理

2. 指定行数范围读取

可以只读取文件的某些行,避免读取不需要的行。例如:

df = pd.read_excel(file,sheet_name=sheet,skiprows=100000,nrows=100000)`  `# 跳过前10万行,读取50万行

3. 选择需要的列读取

通过usecols参数只选择需要的列,避免读取无用的数据列。

df = pd.read_excel(file,sheet_name=sheet,usecols=["col1","col2","col3"])``# 读取想要阿列
---------------------------END---------------------------

题外话

csv可以用来处理可变长的数据吗,python,大数据,开发语言

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

csv可以用来处理可变长的数据吗,python,大数据,开发语言
csv可以用来处理可变长的数据吗,python,大数据,开发语言

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!csv可以用来处理可变长的数据吗,python,大数据,开发语言

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

csv可以用来处理可变长的数据吗,python,大数据,开发语言

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

csv可以用来处理可变长的数据吗,python,大数据,开发语言

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

csv可以用来处理可变长的数据吗,python,大数据,开发语言

六、面试宝典

csv可以用来处理可变长的数据吗,python,大数据,开发语言

csv可以用来处理可变长的数据吗,python,大数据,开发语言

简历模板csv可以用来处理可变长的数据吗,python,大数据,开发语言

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

若有侵权,请联系删除文章来源地址https://www.toymoban.com/news/detail-839827.html

到了这里,关于Python处理大数据——csv文件类型的小技巧的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【办公自动化】使用Python批量处理Excel文件并转为csv文件

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 前言 一、Python处理Excel 二、批量处理Excel文件并转为csv文件 三、往期推荐          

    2024年02月10日
    浏览(48)
  • 【100天精通python】Day27:文件与IO操作_CSV文件处理

    目录  专栏导读   1. CSV文件格式简介 2 csv模块的使用方法 3 读写CSV文件的示例

    2024年02月14日
    浏览(48)
  • Python中对CSV数据预处理

    CSV(Comma Separated Values)是一种常用的数据格式,它是以逗号作为分隔符的纯文本文件,通常用于存储大量的数据。在数据分析和机器学习领域,CSV数据预处理是一个必不可少的步骤。在本篇博客中,我们将介绍Python中对CSV数据预处理的所有步骤。 在Python中,我们可以使用

    2024年02月10日
    浏览(42)
  • 【数据处理】Pandas读取CSV文件示例及常用方法(入门)

    查看读取前10行数据 2067 向前填充 指定列的插值填充 使用某数据填充指定列的空值 示例: 类似切片 array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object) 类似数据库查询中的groupby查询 先添加新的一列按月将数据划分 聚合,对指定的列按月划分求平均值等 min 最小值 max 最大值 sum

    2024年02月06日
    浏览(258)
  • Python中导入csv文件数据

    Python中的csv模块是一种用于读取和写入csv文件的模块,csv可以用于将数据从文件或者其他来源导入到Python中进行分析和处理。在这篇文章中,我们将全面介绍Python中如何导入csv文件,并将从多个方面进行详细探讨,包括读取和写入csv文件、处理csv文件中的缺失值和特殊字符,

    2024年02月05日
    浏览(42)
  • 【Python】python把数据转换为csv文件

    目录 python把数据转换为csv文件 python把数据转换为txt文件 将数据转换为CSV格式文件可以使用Python内置的csv模块进行操作,以下是一段简单的示例代码:

    2024年02月16日
    浏览(58)
  • python爬虫——保存数据为.csv文件

    1、导包 2、创建或打开文件,设置文件形式 3、设置列名 4、创建DictWriter对象 5、写入表头 6、数据写入 使用writerow方法写入行数据        

    2024年02月11日
    浏览(46)
  • python-数据可视化-下载数据-CSV文件格式

    数据以两种常见格式存储: CSV 和 JSON comma-separated values 0 USW00025333 1 SITKA AIRPORT, AK US 2 2018-01-01 3 0.45 4 5 48 6 38 csv.reader() :将前面存储的文件对象作为实参传递给它,创建一个与该文件相关联的阅读器对象 next() 返回文件中的下一行 第一次调用该函数,返回第一行,依次增加

    2024年02月10日
    浏览(38)
  • python的小技巧

    type() 函数只接受一个参数 【1】前提元素个数和取出的存放要一致 元素个数!=存放个数就需要拆包 在从序列元素中获取元素时,只能使用一个单星号语法,用于解包可迭代对象中剩余的元素。 【2】 拆包为参数 *在Python中被称为unpacking操作符,用于将一个可迭代对象

    2024年02月05日
    浏览(39)
  • Python 将CSV文件数据存入Mysql数据库

    我们有一个名为student.csv的文件,里面包含有学生的学号、姓名、性别等信息,想要基于Python将CSV文件中的信息写入MySQL数据库的student_info表中。 下面给出具体实现代码。 首先引入所需要的库。 1、get_data函数打开文件csv文件, 通过open方法打开文件(python文件实现了迭代器协

    2024年02月11日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包