python,Pandas读取csv文件gbk编码和utf-8编码都报错

这篇具有很好参考价值的文章主要介绍了python,Pandas读取csv文件gbk编码和utf-8编码都报错。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、问题描述

用Pandas读取csv文件,read_csv(),使用默认的 encoding = ‘utf-8’ 和 encoding = ‘gbk’ 都报错,如下图。最终通过统一编码方式解决了,操作很简单,但是问题解决的探索过程并不是特别顺利,所以记录一下,给朋友们参考~
data = pd.read_csv('hotel_comment.csv',encoing='gbk') typeerror: read_csv(),笔记,python,pandas,人工智能
data = pd.read_csv('hotel_comment.csv',encoing='gbk') typeerror: read_csv(),笔记,python,pandas,人工智能

二、问题解决

统一编码方式,将csv文件的编码格式改为utf-8。
具体操作:用记事本打开csv文件,可以看到右下角显示的编码方式为ANSI,另存为文件,编码选择UTF-8。
data = pd.read_csv('hotel_comment.csv',encoing='gbk') typeerror: read_csv(),笔记,python,pandas,人工智能

data = pd.read_csv('hotel_comment.csv',encoing='gbk') typeerror: read_csv(),笔记,python,pandas,人工智能
成功读取文件:
data = pd.read_csv('hotel_comment.csv',encoing='gbk') typeerror: read_csv(),笔记,python,pandas,人工智能

三、解决过程及分析总结

  1. 一开始是通过修改默认编码方式为encoding = ‘gbk’ ,发现文件内容的是混合了两种编码方式。
  2. 尝试通过网页搜索相关的问题经验贴,有相关的,但也并不能解决我的问题。
  3. 借助文心一言,AI可以直接提供代码,尝试了几种途径都没有成功,包括:使用chardet库来检测文件的编码、将Pandas库中的read_csv()参数chunksize设置为1逐行读取、使用csv模块和codecs模块来逐行读取CSV文件并条件判断使用编码方式为UTF-8或GBK。
  4. 转变思路,直接将csv文件统一好格式,再读取文件。记事本一键另存为,后面非常顺利地用pd.read_csv()读取成功。

总结:文章来源地址https://www.toymoban.com/news/detail-795337.html

  1. 遇到问题不要慌,虽然有时候尝试好几次报错就会很烦。
  2. 借助大模型是个好办法,代码不一定能顺利运行,但可以给你提供一些思路,比如可以用哪些库和函数,而且发现AI写的代码,编程思维还是体现得很不错的,尤其是函数的设计。
  3. 学会转换思路(放松大脑),尝试用尽可能简单的办法解决问题,比如这个问题可以记事本直接另存为,统一文件编码方式。

到了这里,关于python,Pandas读取csv文件gbk编码和utf-8编码都报错的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一篇文章彻底搞懂Python字符编码方式(中文编码,UTF-8,unicode,gb,gbk,中文乱码,爬虫中文乱码)

    目录 前言 一、字符编码方式的来龙去脉。 1.字符集的含义。 2.编码方式演化过程 1.ASCII 2.GB2312、GBK 3.Unicode 4.UTF-8 二、Python的字符编码及相关操作 1.window系统的字符编码 2.Python的字符编码 1.Python中str与bytes的区别和联系 2.Python encode()方法【对str进行编码】 3.Python decode()方法【对

    2024年01月17日
    浏览(42)
  • Python 基于csv 读取文本文件提示:‘gbk‘ codec can‘t decode byte 0xbf in position 2: illegal multibyte sequence

    Python 基于csv 读取文本文件提示:‘gbk‘ codec can‘t decode byte 0xbf in position 2: illegal multibyte sequence 错误大致意思:Unicode的解码(Decode)出现错误(Error)了,以gbk编码的方式去解码(该字符串变成Unicode),但是此处通过gbk的方式,却无法解码(can’t decode )。“illegal multibyt

    2024年02月05日
    浏览(45)
  • Python 读取csv文件时报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0:invalid

    问题描述:我在读取csv文件时 python报了如下错误 或者报了以下错误:UnicodeDecodeError: \\\'gbk\\\' codec can\\\'t decode byte 0xb1 in position 5: illegal multibyte sequence 目录 问题引出: 错误示范如下: 解决方案如下: 我先创建的xlsx 或者 xls文件,然后再改成以csv为后缀的文件,最后在python里读取失

    2024年02月16日
    浏览(38)
  • Java使用UTF-8或GBK编码后还是乱码的问题

    大家在开发中可能经常遇到将String字符串转为byte[]的场景,为了避免中文乱码,一般指定字符集为GBK或UTF-8来进行编码以及解码,但是如果使用不当,同样会造成字符集乱码问题。 主要原因是进行编码以及解码的字符集不一致导致 所以,在解决字符集乱码问题时一般情况下会

    2024年02月15日
    浏览(31)
  • 一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

    下面是一个非常简单的读取并打印文件内容的示例: 在test.txt文本文件中,只有一个 `你` 字: test.txt 但是,我们在运行这段代码时,出现了如下的错误: 报错: 首先我们得知道这个错误是什么意思。 报错翻译过来就是: Unicode解码错误:“gbk”编解码器无法解码位置2的字

    2024年02月16日
    浏览(34)
  • 织梦GBK/GB2312转utf-8编码操作步骤(全站修改方法)

    目前MIP对编码是有严格要求,必须是UTF-8,那么对于大部分GBK或者GB2312的用户只能先将网站整体进行编码转换,才能进行MIP改造,不然改造后的页面是乱码一大片。 为什么MIP只支持utf-8?目前部分手机自带浏览器仅支持UTF-8,打开GBK的网站会出现乱码,所以为了手机的兼容性,

    2023年04月24日
    浏览(37)
  • 【数据处理】Pandas读取CSV文件示例及常用方法(入门)

    查看读取前10行数据 2067 向前填充 指定列的插值填充 使用某数据填充指定列的空值 示例: 类似切片 array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object) 类似数据库查询中的groupby查询 先添加新的一列按月将数据划分 聚合,对指定的列按月划分求平均值等 min 最小值 max 最大值 sum

    2024年02月06日
    浏览(52)
  • 如何使用pandas读取csv文件中的某一列数据

    使用pandas读取csv文件中的某一列数据,可以这样做: 先导入pandas模块: import pandas as pd 使用 pd.read_csv 函数读取csv文件: df = pd.read_csv(\\\"文件名.csv\\\") 使用 df[\\\"列名\\\"] 读取某一列数据: column = df[\\\"列名\\\"] 例如,如果你有一个csv文件叫做 example.csv ,并且有一列叫做 age ,你可以这样

    2024年02月13日
    浏览(31)
  • UTF-8、GB2312、GBK、GB18030、ISO-8859-1(也称Latin-1):兼容ASCII编码

    ASCII码是单字节的,首位为0,后面表示的值就是Unicode码点,范围为0x00-0x7F,共表示128个字符。 UTF-8和ASCII兼容 :因为对于单字节的符号,UTF-8 编码和 ASCII 码是相同的, 所以 UTF-8 能兼容 ASCII 编码。 GB2312和ASCII兼容 :对于ASCII范围以内的字符,GB2312编码的机内码(不是区位码)

    2024年02月16日
    浏览(26)
  • 解决pandas读取csv、tsv文件出现错误《ParserError: Error tokenizing data. C error: Expected 1 fields in line...》

    读取文件方式改为 出错,ParserError: Error tokenizing data. C error: Expected 1 fields in line… 将读取方式改为 OK,问题解决! read_csv()是Pandas库中用于读取CSV文件的函数,其常用参数如下:

    2024年02月11日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包