字符编码是一种将字节转换为字符的方法,为了正确地验证或显示HTML文档,程序必须选择适当的字符编码。
在计算机上使用的最常见的字符集或字符编码是ASCII-美国信息交换标准代码,这可能是用于电子编码文本的最广泛使用的字符集。
ASCII编码仅支持大写和小写拉丁字母,数字0-9和一些额外的字符,这些字符总共总共128个字符。您可以查看完整的ASCII字符
但是,许多语言使用带重音符号的拉丁字符或完全不同的字母。ASCII不能解决这些字符。因此,如果要使用任何非ASCII字符,则需要了解字符编码。
国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用了广泛支持的ISO-8859-1编码。
这是在世界范围内使用的字符集及其说明的列表。
Sr.No | Character Set & 描述 |
---|---|
1 |
ISO-8859-1 拉丁字母第1部分 覆盖北美,西欧,拉丁美洲,加勒比海,加拿大,非洲 |
2 |
ISO-8859-2 拉丁字母第2部分 覆盖东欧 |
3 |
ISO-8859-3 拉丁字母第3部分 涵盖SE Europe,世界语及其他 |
4 |
ISO-8859-4 拉丁字母第4部分 涵盖斯堪的纳维亚/波罗的海(以及ISO-8859-1中未包含的其他内容) |
5 |
ISO-8859-5 拉丁/西里尔字母第5部分 |
6 |
ISO-8859-6 拉丁/阿拉伯字母第6部分 |
7 |
ISO-8859-7 拉丁/希腊字母第7部分 |
8 |
ISO-8859-8 拉丁/希伯来语字母第8部分 |
9 |
ISO-8859-9 拉丁5字母第9部分 与ISO-8859-1相同,但土耳其字符替换了冰岛字符 |
10 |
ISO-8859-10 拉丁文6拉丁文6拉普,北欧和爱斯基摩人 |
11 |
ISO-8859-15 与ISO-8859-1相同,但添加了更多字符 |
12 |
ISO-2022-JP 拉丁/日语字母第1部分 |
13 |
ISO-2022-JP-2 拉丁/日语字母第2部分 |
14 |
ISO-2022-KR 拉丁文/韩文字母第1部分 |
然后创建了Unicode联盟,以设计一种显示不同语言的所有字符的方法,而不是使用针对不同语言的这些不同的不兼容字符代码。
因此,如果要创建使用来自多个字符集的字符的文档,则可以使用单个Unicode字符编码来进行操作。
因此,Unicode指定可以以特殊方式处理字符串的编码,以便为其包含的庞大字符集留出足够的空间。这些被称为UTF8,UTF-16和UTF-32。
Sr.No | Character Set & 描述 |
---|---|
1 |
UTF-8 以8位为单位的Unicode转换格式,即以字节为单位, UTF8中的字符长度可以从1到4个字节,从而使UTF8的宽度可变。 |
2 |
UTF-16 以16位为单位的Unicode转换格式。 |
3 |
UTF-32 一种以32位为单位的Unicode转换格式,即长整型 |
Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。
默认情况下,HTML 4处理器应支持UTF-8,而XML处理器应支持UTF-8和UTF-16。因此,所有符合XHTML的处理器也应支持UTF-16。
祝学习愉快!(内容编辑有误?请选中要编辑内容 -> 右键 -> 修改 -> 提交!)
Spring Boot与Kubernetes云原生微服务实践 -〔杨波〕