从Google网页中通过正则表达式获取json如何转换unicode对象

这篇具有很好参考价值的文章主要介绍了从Google网页中通过正则表达式获取json如何转换unicode对象。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

场景:Google爬虫,获取下拉框搜索关键词,需要获取页面的里面的json字符串如下面:

'{\\x22aa\\x22:{},\\x22abd\\x22:{\\x22abd\\x22:false,\\x22deb\\x22:false,\\x22det\\x22:false},\\x22async\\x22:{},\\x22attn\\x22:{},\\x22bgd\\x22:{\\x22ac\\x22:true,\\x22as\\x22:true,\\x22at\\x22:0,\\x22ea\\x22:true,\\x22ed\\x22:0,\\x22ei\\x22:true,\\x22el\\x22:true,\\x22ep\\x22:true,\\x22er\\x22:true,\\x22et\\x22:0,\\x22eu\\x22:false,\\x22li\\x22:false,\\x22wl\\x22:false},\\x22cdos\\x22:{\\x22cdobsel\\x22:false},\\x22csi\\x22:{},\\x22d\\x22:{},\\x22foot\\x22:{\\x22dv\\x22:\\x22A13OmSDjAawaEKMYZTqdNnEqnlN77Rg\\x22},\\x22gf\\x22:{\\x22pid\\x22:196},\\x22gwc\\x22:{},\\x22hsm\\x22:{},\\x22jsa\\x22:{\\x22csi\\x22:true,\\x22csir\\x22:100},\\x22kyn\\x22:{},\\x22lli\\x22:{},\\x22mb4ZUb\\x22:{},\\x22pHXghd\\x22:{},\\x22sb_wiz\\x22:{\\x22onf\\x22:\\x22EAEYj6vGoaypudTUARjAp8368N6Oq2sY1P78svbOpoFWGIeIjfvlpdGDVhjtkpzIgLGFiJsBMvcBChcKFeibi-eZvei0qOe7hOWtpui0qOiwsQodChvom4vnmb3otKjnu4TlrabmlbDmja7liIbmnpAKGgoY6JuL55m96LSo6LCx57uT5p6c5YiG5p6QCh0KG-ibi-eZvei0qOe7hOWtpuWIhuaekOa1geeoiwoUChLom4vnmb3otKjnu4TlraZwcHQKFwoV6JuL55m96LSo57uE5a2m5YWs5Y-4ChEKD-ibi-eZvee7hOa1i-W6jwoaChjom4vnmb3otKjnu4TlrabmlbDmja7lupMKEgoQ6JuL55m96LSoIOeglOeptgoOCgzotKjosLHmo4DmtYsQRzJpCh0KG-ibi-eZvei0qOacieWTquS6m-enjeexu--8nwodChvom4vnmb3otKjmnInku4DkuYjlhYPntKDvvJ8KJgok6JuL55m96LSo55qE57uE5oiQ6YOo5YiG5piv5LuA5LmI77yfEOQC\\x22,\\x22scq\\x22:\\x22\\x22,\\x22stok\\x22:\\x22DB6NHG6owl0pg5mSRV3RZ-SroY0\\x22,\\x22zps\\x22:\\x22GI-rxqGsqbnU1AEYwKfN-vDejqtrGNT-_LL2zqaBVhiHiI375aXRg1YY7ZKcyICxhYibAQ\\x22},\\x22sf\\x22:{},\\x22sonic\\x22:{},\\x22spch\\x22:{\\x22ae\\x22:\\x22\\\\u8bf7\\\\u68c0\\\\u67e5\\\\u60a8\\\\u7684\\\\u9ea6\\\\u514b\\\\u98ce\\\\u3002\\\\u003Ca href\\x3d\\\\\\x22https://support.google.com/chrome/?p\\x3dui_voice_search\\\\\\x22 target\\x3d\\\\\\x22_blank\\\\\\x22\\\\u003E\\\\u4e86\\\\u89e3\\\\u8be6\\\\u60c5\\\\u003C/a\\\\u003E\\x22,\\x22ak\\x22:\\x22\\x22,\\x22ao\\x22:true,\\x22cd\\x22:0,\\x22fp\\x22:false,\\x22hl\\x22:\\x22zh-Hans-SG\\x22,\\x22im\\x22:\\x22\\\\u70b9\\\\u51fb\\\\u003Cb\\\\u003E\\\\u5141\\\\u8bb8\\\\u003C/b\\\\u003E\\\\u5f00\\\\u59cb\\\\u8bed\\\\u97f3\\\\u641c\\\\u7d22\\x22,\\x22iw\\x22:\\x22\\\\u6b63\\\\u5728\\\\u7b49\\\\u5f85...\\x22,\\x22lm\\x22:\\x22\\\\u6b63\\\\u5728\\\\u6536\\\\u542c\\\\u2026\\x22,\\x22lu\\x22:\\x22\\\\u76ee\\\\u524d\\\\u5c1a\\\\u672a\\\\u63d0\\\\u4f9b%1$s\\\\u7248\\\\u8bed\\\\u97f3\\\\u641c\\\\u7d22\\\\u670d\\\\u52a1\\x22,\\x22mb\\x22:false,\\x22mc\\x22:false,\\x22ne\\x22:\\x22\\\\u672a\\\\u8fde\\\\u63a5\\\\u5230\\\\u4e92\\\\u8054\\\\u7f51\\x22,\\x22nt\\x22:\\x22\\\\u4e0d\\\\u786e\\\\u5b9a\\\\u6240\\\\u8bf4\\\\u5185\\\\u5bb9\\\\uff0c\\\\u003Cspan\\\\u003E\\\\u8bf7\\\\u91cd\\\\u8bd5\\\\u003C/span\\\\u003E\\x22,\\x22nv\\x22:\\x22\\\\u8bf7\\\\u68c0\\\\u67e5\\\\u60a8\\\\u7684\\\\u9ea6\\\\u514b\\\\u98ce\\\\u548c\\\\u97f3\\\\u9891\\\\u7535\\\\u5e73\\\\u3002\\\\u003Ca href\\x3d\\\\\\x22https://support.google.com/chrome/?p\\x3dui_voice_search\\\\\\x22 target\\x3d\\\\\\x22_blank\\\\\\x22\\\\u003E\\\\u4e86\\\\u89e3\\\\u8be6\\\\u60c5\\\\u003C/a\\\\u003E\\x22,\\x22pe\\x22:\\x22\\\\u8bed\\\\u97f3\\\\u641c\\\\u7d22\\\\u529f\\\\u80fd\\\\u5904\\\\u4e8e\\\\u5173\\\\u95ed\\\\u72b6\\\\u6001\\\\u3002\\\\u003Ca href\\x3d\\\\\\x22https://support.google.com/chrome/?p\\x3dui_voice_search\\\\\\x22 target\\x3d\\\\\\x22_blank\\\\\\x22\\\\u003E\\\\u8be6\\\\u7ec6\\\\u4fe1\\\\u606f\\\\u003C/a\\\\u003E\\x22,\\x22ri\\x22:false,\\x22rm\\x22:\\x22\\\\u8bf7\\\\u5f00\\\\u59cb\\\\u8bf4\\\\u8bdd\\x22,\\x22s3\\x22:false,\\x22sa\\x22:false},\\x22tl\\x22:{\\x22rvkey\\x22:\\x22AIzaSyC_9Rt88UMjzgg5pIVArnfuIVkJx4zCdTY\\x22}}'

然后我通过正在表达式获取后,通过json.loads()报一下错误

报错:json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1) 

 

转换代码如下:

pmc_json = '''
{\\x22aa\\x22:{},\\x22abd\\x22:{\\x22abd\\x22:false,\\x22deb\\x22:false,\\x22det\\x22:false},\\x22async\\x22:{},\\x22attn\\x22:{},\\x22bgd\\x22:{\\x22ac\\x22:true,\\x22as\\x22:true,\\x22at\\x22:0,\\x22ea\\x22:true,\\x22ed\\x22:0,\\x22ei\\x22:true,\\x22el\\x22:true,\\x22ep\\x22:true,\\x22er\\x22:true,\\x22et\\x22:0,\\x22eu\\x22:false,\\x22li\\x22:false,\\x22wl\\x22:false},\\x22cdos\\x22:{\\x22cdobsel\\x22:false},\\x22csi\\x22:{},\\x22d\\x22:{},\\x22foot\\x22:{\\x22dv\\x22:\\x22A13OmSDjAawaEKMYZTqdNnEqnlN77Rg\\x22},\\x22gf\\x22:{\\x22pid\\x22:196},\\x22gwc\\x22:{},\\x22hsm\\x22:{},\\x22jsa\\x22:{\\x22csi\\x22:true,\\x22csir\\x22:100},\\x22kyn\\x22:{},\\x22lli\\x22:{},\\x22mb4ZUb\\x22:{},\\x22pHXghd\\x22:{},\\x22sb_wiz\\x22:{\\x22onf\\x22:\\x22EAEYj6vGoaypudTUARjAp8368N6Oq2sY1P78svbOpoFWGIeIjfvlpdGDVhjtkpzIgLGFiJsBMvcBChcKFeibi-eZvei0qOe7hOWtpui0qOiwsQodChvom4vnmb3otKjnu4TlrabmlbDmja7liIbmnpAKGgoY6JuL55m96LSo6LCx57uT5p6c5YiG5p6QCh0KG-ibi-eZvei0qOe7hOWtpuWIhuaekOa1geeoiwoUChLom4vnmb3otKjnu4TlraZwcHQKFwoV6JuL55m96LSo57uE5a2m5YWs5Y-4ChEKD-ibi-eZvee7hOa1i-W6jwoaChjom4vnmb3otKjnu4TlrabmlbDmja7lupMKEgoQ6JuL55m96LSoIOeglOeptgoOCgzotKjosLHmo4DmtYsQRzJpCh0KG-ibi-eZvei0qOacieWTquS6m-enjeexu--8nwodChvom4vnmb3otKjmnInku4DkuYjlhYPntKDvvJ8KJgok6JuL55m96LSo55qE57uE5oiQ6YOo5YiG5piv5LuA5LmI77yfEOQC\\x22,\\x22scq\\x22:\\x22\\x22,\\x22stok\\x22:\\x22DB6NHG6owl0pg5mSRV3RZ-SroY0\\x22,\\x22zps\\x22:\\x22GI-rxqGsqbnU1AEYwKfN-vDejqtrGNT-_LL2zqaBVhiHiI375aXRg1YY7ZKcyICxhYibAQ\\x22},\\x22sf\\x22:{},\\x22sonic\\x22:{},\\x22spch\\x22:{\\x22ae\\x22:\\x22\\\\u8bf7\\\\u68c0\\\\u67e5\\\\u60a8\\\\u7684\\\\u9ea6\\\\u514b\\\\u98ce\\\\u3002\\\\u003Ca href\\x3d\\\\\\x22https://support.google.com/chrome/?p\\x3dui_voice_search\\\\\\x22 target\\x3d\\\\\\x22_blank\\\\\\x22\\\\u003E\\\\u4e86\\\\u89e3\\\\u8be6\\\\u60c5\\\\u003C/a\\\\u003E\\x22,\\x22ak\\x22:\\x22\\x22,\\x22ao\\x22:true,\\x22cd\\x22:0,\\x22fp\\x22:false,\\x22hl\\x22:\\x22zh-Hans-SG\\x22,\\x22im\\x22:\\x22\\\\u70b9\\\\u51fb\\\\u003Cb\\\\u003E\\\\u5141\\\\u8bb8\\\\u003C/b\\\\u003E\\\\u5f00\\\\u59cb\\\\u8bed\\\\u97f3\\\\u641c\\\\u7d22\\x22,\\x22iw\\x22:\\x22\\\\u6b63\\\\u5728\\\\u7b49\\\\u5f85...\\x22,\\x22lm\\x22:\\x22\\\\u6b63\\\\u5728\\\\u6536\\\\u542c\\\\u2026\\x22,\\x22lu\\x22:\\x22\\\\u76ee\\\\u524d\\\\u5c1a\\\\u672a\\\\u63d0\\\\u4f9b%1$s\\\\u7248\\\\u8bed\\\\u97f3\\\\u641c\\\\u7d22\\\\u670d\\\\u52a1\\x22,\\x22mb\\x22:false,\\x22mc\\x22:false,\\x22ne\\x22:\\x22\\\\u672a\\\\u8fde\\\\u63a5\\\\u5230\\\\u4e92\\\\u8054\\\\u7f51\\x22,\\x22nt\\x22:\\x22\\\\u4e0d\\\\u786e\\\\u5b9a\\\\u6240\\\\u8bf4\\\\u5185\\\\u5bb9\\\\uff0c\\\\u003Cspan\\\\u003E\\\\u8bf7\\\\u91cd\\\\u8bd5\\\\u003C/span\\\\u003E\\x22,\\x22nv\\x22:\\x22\\\\u8bf7\\\\u68c0\\\\u67e5\\\\u60a8\\\\u7684\\\\u9ea6\\\\u514b\\\\u98ce\\\\u548c\\\\u97f3\\\\u9891\\\\u7535\\\\u5e73\\\\u3002\\\\u003Ca href\\x3d\\\\\\x22https://support.google.com/chrome/?p\\x3dui_voice_search\\\\\\x22 target\\x3d\\\\\\x22_blank\\\\\\x22\\\\u003E\\\\u4e86\\\\u89e3\\\\u8be6\\\\u60c5\\\\u003C/a\\\\u003E\\x22,\\x22pe\\x22:\\x22\\\\u8bed\\\\u97f3\\\\u641c\\\\u7d22\\\\u529f\\\\u80fd\\\\u5904\\\\u4e8e\\\\u5173\\\\u95ed\\\\u72b6\\\\u6001\\\\u3002\\\\u003Ca href\\x3d\\\\\\x22https://support.google.com/chrome/?p\\x3dui_voice_search\\\\\\x22 target\\x3d\\\\\\x22_blank\\\\\\x22\\\\u003E\\\\u8be6\\\\u7ec6\\\\u4fe1\\\\u606f\\\\u003C/a\\\\u003E\\x22,\\x22ri\\x22:false,\\x22rm\\x22:\\x22\\\\u8bf7\\\\u5f00\\\\u59cb\\\\u8bf4\\\\u8bdd\\x22,\\x22s3\\x22:false,\\x22sa\\x22:false},\\x22tl\\x22:{\\x22rvkey\\x22:\\x22AIzaSyC_9Rt88UMjzgg5pIVArnfuIVkJx4zCdTY\\x22}}'
'''
pmc_json = bytes(pmc_json, "utf-8").decode("unicode_escape")
pmc = json.loads(pmc_json)

 

结果如下:

{'aa': {}, 'abd': {'abd': False, 'deb': False, 'det': False}, 'async': {}, 'attn': {}, 'bgd': {'ac': True, 'as': True, 'at': 0, 'ea': True, 'ed': 0, 'ei': True, 'el': True, 'ep': True, 'er': True, 'et': 0, 'eu': False, 'li': False, 'wl': False}, 'cdos': {'cdobsel': False}, 'csi': {}, 'd': {}, 'foot': {'dv': 'A13OmSDjAawaEKMYZTqdNnEqnlN77Rg'}, 'gf': {'pid': 196}, 'gwc': {}, 'hsm': {}, 'jsa': {'csi': True, 'csir': 100}, 'kyn': {}, 'lli': {}, 'mb4ZUb': {}, 'pHXghd': {}, 'sb_wiz': {'onf': 'EAEYj6vGoaypudTUARjAp8368N6Oq2sY1P78svbOpoFWGIeIjfvlpdGDVhjtkpzIgLGFiJsBMvcBChcKFeibi-eZvei0qOe7hOWtpui0qOiwsQodChvom4vnmb3otKjnu4TlrabmlbDmja7liIbmnpAKGgoY6JuL55m96LSo6LCx57uT5p6c5YiG5p6QCh0KG-ibi-eZvei0qOe7hOWtpuWIhuaekOa1geeoiwoUChLom4vnmb3otKjnu4TlraZwcHQKFwoV6JuL55m96LSo57uE5a2m5YWs5Y-4ChEKD-ibi-eZvee7hOa1i-W6jwoaChjom4vnmb3otKjnu4TlrabmlbDmja7lupMKEgoQ6JuL55m96LSoIOeglOeptgoOCgzotKjosLHmo4DmtYsQRzJpCh0KG-ibi-eZvei0qOacieWTquS6m-enjeexu--8nwodChvom4vnmb3otKjmnInku4DkuYjlhYPntKDvvJ8KJgok6JuL55m96LSo55qE57uE5oiQ6YOo5YiG5piv5LuA5LmI77yfEOQC', 'scq': '', 'stok': 'DB6NHG6owl0pg5mSRV3RZ-SroY0', 'zps': 'GI-rxqGsqbnU1AEYwKfN-vDejqtrGNT-_LL2zqaBVhiHiI375aXRg1YY7ZKcyICxhYibAQ'}, 'sf': {}, 'sonic': {}, 'spch': {'ae': '请检查您的麦克风。<a href="https://support.google.com/chrome/?p=ui_voice_search" target="_blank">了解详情</a>', 'ak': '', 'ao': True, 'cd': 0, 'fp': False, 'hl': 'zh-Hans-SG', 'im': '点击<b>允许</b>开始语音搜索', 'iw': '正在等待...', 'lm': '正在收听…', 'lu': '目前尚未提供%1$s版语音搜索服务', 'mb': False, 'mc': False, 'ne': '未连接到互联网', 'nt': '不确定所说内容,<span>请重试</span>', 'nv': '请检查您的麦克风和音频电平。<a href="https://support.google.com/chrome/?p=ui_voice_search" target="_blank">了解详情</a>', 'pe': '语音搜索功能处于关闭状态。<a href="https://support.google.com/chrome/?p=ui_voice_search" target="_blank">详细信息</a>', 'ri': False, 'rm': '请开始说话', 's3': False, 'sa': False}, 'tl': {'rvkey': 'AIzaSyC_9Rt88UMjzgg5pIVArnfuIVkJx4zCdTY'}}

 

感想:

解决这个问题,差不多花了我半天的时间。刚开始通过正则表达式获取的json字符,然后通过print直接打印在python终端,看起来还是比较正常的,看不出来有啥问题;

然后我通过print(repr())打印就能明显的看出区别,然后把它编码成utf-8,然后在转化为unicode完美解决这个问题。文章来源地址https://www.toymoban.com/news/detail-850444.html

到了这里,关于从Google网页中通过正则表达式获取json如何转换unicode对象的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python--控制台获取输入与正则表达式

    在Python编程中,控制台输入和正则表达式是两个重要而实用的概念。掌握这两个技巧可以帮助我们更灵活地处理用户输入以及对文本进行复杂的匹配和处理。本文中将详细介绍Python中如何通过控制台获取用户输入以及如何使用正则表达式进行文本处理。深入探讨输入类型转换

    2024年02月07日
    浏览(43)
  • 【正则表达式】获取html代码文本内所有<script>标签内容

    一. 背景 之前要对学生提交的html代码进行检查,在获取了学生提交的html代码文本后,需要使用正则去截取内部的script标签内容做进一步的检查。 假设得到html文本如下(不是代码),我们要得到全部的script标签内容并提取出来。 看上去不难,但是实际操作起来有一定的坑,

    2024年01月17日
    浏览(34)
  • C#用正则表达式获取字符串中汉字的数量

    目录 一、关于字符串和判断其组成常识 二、用正则表达式获取字符串中汉字的数量 1.字符是否为汉字的正则表达式 2.实例 3.生成结果 三、相关知识点 1.Regex.IsMatch 方法          字符串中可以包括数字、字母、汉字或者其他字符。使用Char类型的IsDigit静态方法可以判断字

    2024年01月17日
    浏览(33)
  • 【正则表达式】正则表达式常见匹配模式

    模式 描述 w 匹配字母数字及下划线 W 匹配非字母数字下划线 s 匹配任意空白字符,等价于 [tnrf]. S 匹配任意非空字符 d 匹配任意数字,等价于 [0-9] D 匹配任意非数字 A 匹配字符串开始 Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串 z 匹配字符串结

    2024年02月09日
    浏览(65)
  • 【SQL-正则】利用正则表达式进行过滤操作(常用正则表达式)

    1、由数字、26个英文字母或者下划线组成的字符串 2、非负整数(正整数 + 0 ) 3、正整数 4、非正整数(负整数 + 0) 5、负整数 6、整数 7、非负浮点数(正浮点数 + 0) 8、正浮点数 9、非正浮点数(负浮点数 + 0) 10、负浮点数 11、浮点数 12、由26个英文字母组成的字符串 13、

    2024年02月12日
    浏览(65)
  • Java 之正则表达式语法及常用正则表达式汇总

    正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称

    2024年02月09日
    浏览(56)
  • Python正则表达式之学习正则表达式三步曲

            正则表达式描述了一种字符串匹配的模式,可以用来检查一个串的有无某子串,或者做子串匹配替换,取出子串等操作。也可以说正则表达式就是字符串的匹配规则,也可以理解为是一种模糊匹配,匹配满足正则条件的字符串。         1、数据验证(eg:表单验

    2024年02月15日
    浏览(49)
  • 老夫的正则表达式大成了,桀桀桀桀!!!【Python 正则表达式笔记】

    特殊字符 .^$?+*{}[]()| 为特殊字符,若想要使用字面值,必须使用 进行转义 字符类 [] [] 匹配包含在方括号中的任何字符。它也可以指定范围,例: [a-zA-Z0-9] 表示a到z,A到Z,0到9之间的任何一个字符 [u4e00-u9fa5] 匹配 Unicode 中文 [^x00-xff] 匹配双字节字符(包括中文) 在 [] 中

    2024年02月04日
    浏览(47)
  • 机器学习与数据科学-专题1 Python正则表达式-【正则表达式入门-1】

    为了完成本关任务,你需要掌握: 在 Python 中使用正则表达式; 最基础正则表达式; 正则匹配函数。 在 Python 中使用正则表达式 正可谓人生苦短,我用 Python。Python 有个特点就是库非常多,自然拥有正则匹配这种常见的库,并且此库已经嵌入在 Python 标准库中,使用起来非常

    2024年01月22日
    浏览(39)
  • 正则表达式 (用于灵活匹配文本的表达式)

    目录 . * 用于匹配任意单个字符,除了换行符。 例如使用正则表达式 a.b, 它可以匹配aab、acb、a#b 用于匹配前一个字符零次或多次。 例如,使用正则表达式 ab*c ,它可以匹配 \\\"ac\\\"、\\\"abc\\\"、\\\"abbc\\\",因为 b* 表示匹配零个或多个字符 \\\"b\\\"。所以,这个表达式可以匹配 \\\"ac\\\"(零个 \\\"b\\\"),

    2024年01月16日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包