字符集详解

这篇具有很好参考价值的文章主要介绍了字符集详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

常见字符集介绍

字符集基础知识:

计算机底层不可以直接存储字符的。

计算机中底层只能存储二进制(0、1) 。

二进制是可以转换成十进制的。

结论:计算机底层可以表示成十进制编号。计算机可以给人类字符进行编号存储,这套编号规则就是字符集。

ASCII字符集:

ASCII(American Standard Code for Information Interchange,美国信息交换标准代码):包括了数字、英文、符号。

ASCII使用1个字节存储一个字符,一个字节是8位,首位为0,总共可以表示128个字符信息,对于英文,数字来说是够用的。

GBK:

window系统默认的码表。兼容ASCII码表,也包含了几万个汉字,并支持繁体汉字以及部分日韩文字。

注意:GBK是中国的码表,一个中文以两个字节的形式存储。但不包含世界上所有国家的文字。

Unicode码表:

 unicode(又称统一码、万国码、单一码)是计算机科学领域里的一项业界字符编码标准。

容纳世界上大多数国家的所有常见文字和符号。

Unicode会先通过UTF-8,UTF-16,以及 UTF-32编码成二进制后再存储到计算机,其中最为常见的就是UTF-8。

注意

Unicode是万国码,以UTF-8编码后一个中文一般以三个字节的形式存储。

UTF-8也要兼容ASCII编码表。

技术人员都应该使用UTF-8的字符集编码。

编码前和编码后的字符集需要一致,否则会出现中文乱码。

汉字存储和展示过程解析

字符集详解,java,java,开发语言

总结

1、字符串常见的字符底层组成是什么样的?

英文和数字等在任何国家的字符集中都占1个字节。

GBK字符中一个中文字符占2个字节。

UTF-8编码中一个中文1般占3个字节。

2、编码前的字符集和编码好的字符集有什么要求?

必须一致,否则会出现中文字符乱码。

英文和数字在任何国家的编码中都不会乱码 。

字符集的编码、解码操作

String编码

byte[] getBytes​() 使用平台的默认字符集将该 String编码为一系列字节,将结果存储到新的字节数组中。

byte[] getBytes​(String charsetName)

String解码

String​(byte[] bytes) 通过使用平台的默认字符集解码指定的字节数组来构造新的 String。

String​(byte[] bytes, String charsetName) 文章来源地址https://www.toymoban.com/news/detail-731911.html

案例

public class Test {
    public static void main(String[] args) throws Exception {
        // 1、编码:把文字转换成字节(使用指定的编码)
        String name = "abc我爱你中国";
        // byte[] bytes = name.getBytes(); // 以当前代码默认字符集进行编码 (UTF-8)
        byte[] bytes = name.getBytes("GBK"); // 指定编码
        System.out.println(bytes.length);
        System.out.println(Arrays.toString(bytes));

        // 2、解码:把字节转换成对应的中文形式(编码前 和 编码后的字符集必须一致,否则乱码 )
        // String rs = new String(bytes); // 默认的UTF-8
        String rs = new String(bytes, "GBK"); // 指定GBK解码
        System.out.println(rs);
    }
}

到了这里,关于字符集详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Java基础——IO流之字符集

    (1)IO前置内容:字符集 1.字符集基础知识: 计算机底层不可以直接存储字符,只能存储二进制(0,1)。 二进制可以转换成十进制。 计算机底层可以表示十进制编号。计算机可给人类字符进行编号存储,这套编号规则就是字符集。 2.ASCII字符集:(1字节) ASCII(American S

    2023年04月17日
    浏览(45)
  • MySQL数据库——MySQL字符集和校对规则详解

    在讲解字符集和校对规则之前,我们先来简单了解一下字符、字符集和字符编码。 字符(Character) 是计算机中字母、数字、符号的统称,一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号等。 计算机是以二进制的形式来存储数据的。平时我们在

    2024年02月05日
    浏览(43)
  • java中http请求,记得加字符集 UTF-8,StringEntity

    http请求经常会遇到一些奇怪的问题,例如发送请求失败,或者response出现问题,或者参数中带了url调接口失败,调用微信接口失败,调用nginx转发失败,等等。 但用postman调用不会有问题。 这说明参数本身没有问题,服务器也没有问题,是客户端的问题。在你的代码里面,客

    2024年02月07日
    浏览(53)
  • 华为OD机试之全量和已占用字符集(Java源码)

    题目描述 给定两个字符集合,一个是全量字符集,一个是已占用字符集,已占用字符集中的字符不能再使用。 输入描述 输入一个字符串 一定包含@,@前为全量字符集 @后的为已占用字符集 已占用字符集中的字符一定是全量字符集中的字符 字符集中的字符跟字符之间使用英文

    2024年02月07日
    浏览(54)
  • 【华为OD机试】全量和已占用字符集(python, java, c++, js)

    前言 :本专栏将持续更新华为OD机试题目,并进行详细的分析与解答,包含完整的代码实现,希望可以帮助到正在努力的你。关于OD机试流程、面经、面试指导等,如有任何疑问,欢迎联系我,wechat:steven_moda;email:nansun0903@163.com;备注:CSDN。 给定两个字符集合,一个为全

    2024年02月11日
    浏览(45)
  • linux修改locale字符集编码为UTF-8/GBK,修改语言区域为zh-CN(中文-中国)

    linux系统的语言、区域、字符集编码由`locale’ [loʊˈkæl] 决定。 对应配置文件路径: centos7 /etc/locale.conf centos6 /etc/sysconfig/i18n 以下以centos&为例 LANG= LC_CTYPE=“POSIX” LC_NUMERIC=“POSIX” LC_TIME=“POSIX” LC_COLLATE=“POSIX” LC_MONETARY=“POSIX” LC_MESSAGES=“POSIX” LC_PAPER=“POSIX” LC_NAME=“

    2024年02月13日
    浏览(76)
  • 【华为OD机考 统一考试机试C卷】 全量和已占用字符集 、字符串统计(C++ Java JavaScript Python)

    2023年11月份,华为官方已经将 华为OD机考:OD统一考试(A卷 / B卷)切换到 OD统一考试(C卷)和 OD统一考试(D卷) 。根据考友反馈:目前抽到的试卷为B卷或C卷/D卷,其中C卷居多 ,按照之前的经验C卷部分考题会复用A卷,B卷题,博主正积极从考过的同学收集C卷和D卷真题。

    2024年02月05日
    浏览(38)
  • (二)java.sql.SQLException: 不支持的字符集 (在类路径中添加 orai18n.jar): ZHS16GBK

    不支持的字符集 (在类路径中添加 orai18n.jar): ZHS16GBK (一)SQL state [99999]; error code [17056]; 不支持的字符集 (在类路径中添加 orai18n.jar): ZHS16GBK; nested exception (二)java.sql.SQLException: 不支持的字符集 (在类路径中添加 orai18n.jar): ZHS16GBK java.sql.SQLException: 不支持的字符集 (在类路

    2024年02月09日
    浏览(35)
  • 有限字符集的字符串压缩算法

    在开发中,经常有上报线上堆栈来分析处理线上问题的场景,所以,对堆栈的压缩和加密也是必不可少的。加密:可以使用AES对称加密算法,压缩:可以在上传时利用protobuf天生的压缩性对字符串进行压缩。 不过,出于对流量的节省和传输效率的提升,可以通过在堆栈上传前

    2024年02月11日
    浏览(65)
  • 算法加密与解密、字符编码与字符集

    加密保证数据不会被窃取或者修改 哈希算法 压缩映射 :散列又称为哈希,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。 哈希算法(Hash)又称摘要算法(Digest),哈希算法的目的就是为了验证原始数据是否被篡改。 主流的散列算法有MD5和

    2024年02月03日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包