Python解决Zipfile文件解压中文乱码

这篇具有很好参考价值的文章主要介绍了Python解决Zipfile文件解压中文乱码。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Python解决Zipfile文件解压中文乱码

背景

在上一篇文章我们学习了如何在浏览器中下载文件：Selenium修改默认下载文件路径，最后下载的文件是压缩包的形式，我们想要分析数据就需要涉及到解压文件，在这里我们使用Zipfile包来实现压缩文件的解压操作。这个过程中遇到一个比较麻烦的问题就是解压的文件名包括中文，所以导致发生乱码现象，于是这里分享一下怎么去处理乱码问题。

中文乱码问题

异常解压

原目录下文件为：`20230118110026_645.zip`

Python解决Zipfile文件解压中文乱码

执行代码-解压文件：

import zipfile


def main():
    file_zip = zipfile.ZipFile('D:/CSDN/DataDownload/20230118110026_645.zip')
    # namelist()列表形式显示压缩文件”20230118110026_645.zip“中的所有文件名
    # for语句遍历文件名
    for file in file_zip.namelist():
        # 解压文件到指定路径下“D:\CSDN\DataDownload”
        file_zip.extract(file, r'D:\CSDN\DataDownload')
    print('解压完成')


main()

此时目录下显示内容为文件名乱码：
Python解决Zipfile文件解压中文乱码

问题分析以及解决方案

问题分析

zip标准中，对文件名的encoding用的不是unicode，而是系统的默认字符集；中文windows采用的GBK编码，因此不是这种编码方式则会出现中文乱码的形式，在这里我们将源文件zipfile.py（这里我的路径是在D:\Python\Python311\Lib目录下）找到下面这两个地方并且进行修改：

问题解决

filename = filename.encode("cp437").decode('gbk')

Python解决Zipfile文件解压中文乱码

fname_str = fname_str.encode("cp437").decode('gbk')  # ---0211修改

Python解决Zipfile文件解压中文乱码
保存后，切换到程序页面，再次执行，此时文件名正常显示，包括下级目录皆正常：

知识拓展

解压完成后删除原zip文件，节省内存：

import os
import zipfile


def main():
    file_zip = zipfile.ZipFile('D:/CSDN/DataDownload/20230118110026_645.zip')
    # namelist()列表形式显示压缩文件”20230118110026_645.zip“中的所有文件名
    # for语句遍历文件名
    for file in file_zip.namelist():
        # 解压文件到指定路径下“D:\CSDN\DataDownload”
        file_zip.extract(file, r'D:\CSDN\DataDownload')
    file_zip.close()
    # 删除zip文件
    os.remove('D:/CSDN/DataDownload/20230118110026_645.zip')
    print('解压完成')


main()