文本四字节unicode解析出错

这篇具有很好参考价值的文章主要介绍了文本四字节unicode解析出错。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

case:

ℳ𝒶𝓀ℯ 𝓎ℴ𝓊 𝓈𝒶𝒻ℯ 𝒾𝓃 𝒶𝓃 𝓊𝓃𝓀𝓃ℴ𝓌𝓃 𝒸ℴ𝓇𝓃.

unicode:

b’\u2133\U0001d4b6\U0001d4c0\u212f \U0001d4ce\u2134\U0001d4ca \U0001d4c8\U0001d4b6\U0001d4bb\u212f \U0001d4be\U0001d4c3 \U0001d4b6\U0001d4c3 \U0001d4ca\U0001d4c3\U0001d4c0\U0001d4c3\u2134\U0001d4cc\U0001d4c3 \U0001d4b8\u2134\U0001d4c7\U0001d4c3’

utf8:

b’\xe2\x84\xb3\xf0\x9d\x92\xb6\xf0\x9d\x93\x80\xe2\x84\xaf \xf0\x9d\x93\x8e\xe2\x84\xb4\xf0\x9d\x93\x8a \xf0\x9d\x93\x88\xf0\x9d\x92\xb6\xf0\x9d\x92\xbb\xe2\x84\xaf \xf0\x9d\x92\xbe\xf0\x9d\x93\x83 \xf0\x9d\x92\xb6\xf0\x9d\x93\x83 \xf0\x9d\x93\x8a\xf0\x9d\x93\x83\xf0\x9d\x93\x80\xf0\x9d\x93\x83\xe2\x84\xb4\xf0\x9d\x93\x8c\xf0\x9d\x93\x83 \xf0\x9d\x92\xb8\xe2\x84\xb4\xf0\x9d\x93\x87\xf0\x9d\x93\x83’

问题

微博中包含4字节unicode字符,导致后端存储相关数据解析出错

资料

https://www.unicode.org/charts/PDF/
https://www.unicode.org/charts/PDF/U1D400.pdf文章来源地址https://www.toymoban.com/news/detail-704988.html

到了这里,关于文本四字节unicode解析出错的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【STM32】HAL库的STOP低功耗模式UART串口唤醒,第一个接收字节出错的问题(已解决)

    【STM32】HAL库的STOP低功耗模式UART串口唤醒,第一个接收字节出错的问题(已解决) 最近做项目时 用到了STOP1停止模式的串口唤醒 唤醒配置如下: 【STM32】HAL库低功耗STOP停止模式的串口唤醒(解决进入以后立马唤醒、串口唤醒和回调无法一起使用、接收数据不全的问题) 我

    2024年01月15日
    浏览(50)
  • 如何使用NLP库解析Python中的文本

    Python是一种强大的面向对象的编程(object-oriented programming,OOP)语言,在人工智能领域有着广泛的用途。正是鉴于其实用性,以Google为首的大型科技公司,已经对其开发了Tensorflow等代码库,帮助人们利用强大的机器学习算法与模型,来实现各种应用目的,其中不乏各种“手语

    2024年02月11日
    浏览(38)
  • 【STM32】HAL库的STOP低功耗模式UART串口唤醒,解决首字节出错的问题(全网第一解决方案)

    【STM32】HAL库的STOP低功耗模式UART串口唤醒,解决首字节出错的问题(全网第一解决方案) 前文: 【STM32】HAL库的STOP低功耗模式UART串口唤醒,第一个接收字节出错的问题(疑难杂症) 目前已解决 并更新了我的gitee库: 基于HAL库建立自己的低功耗模式配置库(STM32L4系列低功耗

    2024年01月18日
    浏览(47)
  • Python用于解析和修改文本数据-pyparsing模块教程

    人们普遍认为,Python编程语言的pyparsing 模块是对文本数据进行操作的一个宝贵工具。 用于解析和修改文本数据的pyparsing 包,简化了对地址的操作。这是因为该模块可以转换和帮助解析地址。 在这篇文章中,我们将讨论PyParsing 模块在处理解析以及修改时的用法。让我们看看

    2024年02月08日
    浏览(29)
  • 【CSS】CSS 文本样式 ① ( font 字体设置 | font-size 字号大小设置 | font-family 字体设置 | Unicode 编码字体名称 )

    在 CSS 中 , 字号大小 设置 语法如下 : 上述代码的含义是 , 将 HTML 页面所有的 p 标签字号都设置成 16 像素 ; font-size 属性值 的单位 推荐使用 px 像素 , 也可以使用下面的 长度单位 : px : 像素 , 强烈推荐使用 ; em : 相对 当前 对象文本 的大小 ; in : 英寸 , 绝对长度单位 ; cm : 厘米

    2024年02月02日
    浏览(54)
  • python 中文字符转换unicode及Unicode 编码转换为中文

    废话不多说 直接开干 知识点 decode 字节编码可decode为str encode 将字符串转换为bytes类型的对象 (即b为前缀, bytes类型), 即Ascll编码, 字节数组 encode(‘unicode-escape’)可将此str编码为bytes类型, 内容则是unicode形式 decode(‘unicode-escape’)可将内容为unicode形式的bytes类型转换为str 将一段

    2024年02月04日
    浏览(42)
  • Python输出所有的Unicode字符!

    代码一点点,主要就是用了chr函数: 1.因为直接输出太慢,改为文件输出 2. D800~DFFF 是High Surrogate Area和Low Surrogate Area,真打不出来(会报错),因此跳过 输出结果: 虽然 有些 字符不能正常显示,但整体效果不错,像上图这些 CJK扩展区 都能正常显示!

    2024年02月16日
    浏览(38)
  • 9.Python从入门到精通—Python 字符串格式化,三引号,Unicode 字符串

    Python中的字符串格式化是指将一个字符串中的占位符替换为指定的值。Python中有多种字符串格式化的方法,以下是其中的几种常见方法: 使用百分号(%)进行字符串格式化 使用百分号(%)进行字符串格式化是Python中最早的字符串格式化方法。它的基本语法如下: 其中,格

    2024年03月20日
    浏览(57)
  • UDS-19服务的状态掩码字节解析

    19服务读DTC信息有01、02、04、06、0A等子服务,使用诊断仪读取DUT数据一般只需发送4字节有效数据,其他无效字节用00或者CC填充,如03 19 02 09 00 00 00 00, 数据分解: 03:表示报文类型未单帧,长度为3; 19:表示19服务,读取DTC信息; 02:表示19服务下的子服务,读取故障信息;

    2024年02月04日
    浏览(34)
  • “深入解析JVM内部机制:从字节码到垃圾回收“

    标题:深入解析JVM内部机制:从字节码到垃圾回收 摘要:JVM(Java虚拟机)是Java程序的运行环境,它负责将Java字节码转换为机器指令并执行。本文将深入探讨JVM的内部机制,从字节码的加载、解析和执行到垃圾回收的原理和实现方式。 字节码加载和解析 在Java程序运行之前,

    2024年02月14日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包