PyQuery报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa8...

10月前作者：对许分类：Toy博客阅读(68) 违法举报

这篇具有很好参考价值的文章主要介绍了PyQuery报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa8...。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1、问题描述

今天在使用pyquery库读取本地HTML文件时报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa8 in position 805: illegal multibyte sequence

代码如下：

from pyquery import PyQuery as pq

path = r'../../xx.html'
html = pq(filename=path)
print(html('h1'))

2、问题原因

该错误通常是因为编码方式不一致导致的

一种情况是，如果HTML采用GBK编码方式，而IDE默认采用UTF-8编码方式，导致无法正常解码

另一种情况是，当CSV文件的表头包含中文时，可能导致同样的错误

总的来说，你需要在读取文件时保证正确的编码方式，匹配文件的实际编码方式

3、问题解决

对于采用非UTF-8编码的HTML，可以使用open()指定正确的编码打开文件：

with open(r'../../xx.html', "r", encoding="utf-8") as file:
    content = file.read()

html = pq(content)
print(html('h1'))

对于包含中文表头的CSV，也是同样的道理：文章来源地址https://www.toymoban.com/news/detail-738825.html

data = pd.read_csv(r'../../xx.csv', encoding="utf-8")

到了这里，关于PyQuery报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa8...的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

已解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode bytes in position 1022-1023: unexpected end of dat

已解决使用pycharm run运行代码正常，而debug却抛出异常UnicodeDecodeError: ‘utf-8’ codec can’t decode bytes in position 1022-1023: unexpected end of data，附上三种的正确解决方法，亲测有效！！！粉丝群里面的一个小伙伴遇到问题跑来私信我，想用pycharm debug，但是发生了报错（当时他心里瞬

2023年04月20日
浏览(79)
解决SubtitlesClip读取字幕文件时报 ‘gbk‘ codec can‘t decode byte xxx in position xxx

操作系统：windows10 moviepy版本：1.0.3 python：3.10 在使用moviepy处理视频时，加载srt字幕使用的SubtitlesClip这个类读取的文件。随后报错如下： moviepy这个版本读取文件时，使用的with open，且没有指定encoding参数，因此默认使用的操作系统的编码方式打开，那么在windows系统通常会是

2024年02月09日
浏览(52)
SPYDER更新后打不开：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb5 in position 134

spyder提示更新3.4.1版本，手贱跑去更新了一下，更新完之后spyder蛛网加载完后就闪退，开始查资料解决。首先打开anaconda终端，输入spyder回车查询错误信息：这里显示的是编码错误，最重要的是找到文件记录里面的最后一个文件environ.py，然后找到对应的第60行： environ.py文件

2024年02月11日
浏览(52)
Python 读取csv文件时报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0:invalid

问题描述：我在读取csv文件时 python报了如下错误或者报了以下错误：UnicodeDecodeError: \\\'gbk\\\' codec can\\\'t decode byte 0xb1 in position 5: illegal multibyte sequence 目录问题引出：错误示范如下：解决方案如下：我先创建的xlsx 或者 xls文件，然后再改成以csv为后缀的文件，最后在python里读取失

2024年02月16日
浏览(65)
Python 基于csv 读取文本文件提示：‘gbk‘ codec can‘t decode byte 0xbf in position 2: illegal multibyte sequence

Python 基于csv 读取文本文件提示：‘gbk‘ codec can‘t decode byte 0xbf in position 2: illegal multibyte sequence 错误大致意思：Unicode的解码（Decode）出现错误（Error）了，以gbk编码的方式去解码（该字符串变成Unicode），但是此处通过gbk的方式，却无法解码（can’t decode ）。“illegal multibyt

2024年02月05日
浏览(70)
python使用pd.read_csv()，出现错误UnicodeDecodeError: ‘utf-8‘ codec can‘t decode ......

首先说一下这个原因，所读取的csv文件的编码方式不是utf-8，然后现在指定encoding=\\\"UTF-8\\\"会出现以上问题。一、查看你的csv文件时什么编码方式使用记事本打开csv文件，红框所示即csv文件的编码方式。现在你的csv文件的编码格式就是\\\"ANSI\\\"，这时候再去指定encoding=\\\"UTF-8\\\"，就会

2024年02月15日
浏览(51)
已解决SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated

已解决（Python读取文件报错）SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated UXXXXXXXX escape 粉丝群一个小伙伴想用pdfplumber读取PDF的信息却发生了报错（当时他心里瞬间凉了一大截，跑来找我求助，然后顺利帮助他解决了，顺便记录一下希望可以

2024年02月06日
浏览(120)
‘utf8‘ codec can‘t decode byte 0xcd in position 0: unexpected end of data

nmap在windows安装好后，在命令行输入被扫描的目标，点击扫描提示\\\'utf8\\\' codec can\\\'t decode byte 0xcd in position 0: unexpected end of data 第一步首先检查安装nmap的路径中是否有中文第二步检查C:userXXX中“XXX”是否为中文第一步解决方案：第一步的中文路径把nmap卸载，重新安装到英文路径

2024年02月01日
浏览(74)
在Python中使用print输出时，出现UnicodeEncodeError错误，错误提示为“‘gbk‘ codec can‘t encode character ‘\u2022‘ in posit

利用chatgpt一步步解决了这个问题，感觉ChatGPT还是太强大了。问题描述：在Python中使用print输出时，出现UnicodeEncodeError错误，错误提示为“\\\'gbk\\\' codec can\\\'t encode character \\\'u2022\\\' in position 82: illegal multibyte sequence”。解决办法： 1.指定编码格式：在代码开头添加以下注释，指定编码

2024年02月12日
浏览(76)
解决python编码报错：UnicodeEncodeError: ‘ascii‘ codec can‘t encode character u‘\uff08‘ in position 13:ordin

解决 python 编码报错： UnicodeEncodeError: \\\'ascii\\\' codec can\\\'t encode character u\\\'uff08\\\' in position 13: ordinal not 最近在手搓数据分析小项目时，需要借助于爬虫获取些数据，于是翻出去年暑假写的python爬虫代码，往常可以正常运行的代码，却总是报 UnicodeEncodeError: \\\'ascii\\\' codec can\\\'t encode

2024年01月18日
浏览(58)