关注我们

HTML - 字符编码

字符编码是一种将字节转换为字符的方法，为了正确地验证或显示HTML文档，程序必须选择适当的字符编码。

在计算机上使用的最常见的字符集或字符编码是ASCII-美国信息交换标准代码，这可能是用于电子编码文本的最广泛使用的字符集。

ASCII编码仅支持大写和小写拉丁字母,数字0-9和一些额外的字符,这些字符总共总共128个字符。您可以查看完整的ASCII字符

但是，许多语言使用带重音符号的拉丁字符或完全不同的字母。ASCII不能解决这些字符。因此，如果要使用任何非ASCII字符，则需要了解字符编码。

国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档，使用了广泛支持的ISO-8859-1编码。

这是在世界范围内使用的字符集及其说明的列表。

Sr.No	Character Set & 描述
1	ISO-8859-1 拉丁字母第1部分覆盖北美，西欧，拉丁美洲，加勒比海，加拿大，非洲
2	ISO-8859-2 拉丁字母第2部分覆盖东欧
3	ISO-8859-3 拉丁字母第3部分涵盖SE Europe，世界语及其他
4	ISO-8859-4 拉丁字母第4部分涵盖斯堪的纳维亚/波罗的海(以及ISO-8859-1中未包含的其他内容)
5	ISO-8859-5 拉丁/西里尔字母第5部分
6	ISO-8859-6 拉丁/阿拉伯字母第6部分
7	ISO-8859-7 拉丁/希腊字母第7部分
8	ISO-8859-8 拉丁/希伯来语字母第8部分
9	ISO-8859-9 拉丁5字母第9部分与ISO-8859-1相同，但土耳其字符替换了冰岛字符
10	ISO-8859-10 拉丁文6拉丁文6拉普，北欧和爱斯基摩人
11	ISO-8859-15 与ISO-8859-1相同，但添加了更多字符
12	ISO-2022-JP 拉丁/日语字母第1部分
13	ISO-2022-JP-2 拉丁/日语字母第2部分
14	ISO-2022-KR 拉丁文/韩文字母第1部分

然后创建了Unicode联盟，以设计一种显示不同语言的所有字符的方法，而不是使用针对不同语言的这些不同的不兼容字符代码。

因此，如果要创建使用来自多个字符集的字符的文档，则可以使用单个Unicode字符编码来进行操作。

因此，Unicode指定可以以特殊方式处理字符串的编码，以便为其包含的庞大字符集留出足够的空间。这些被称为UTF8，UTF-16和UTF-32。

Sr.No	Character Set & 描述
1	UTF-8 以8位为单位的Unicode转换格式，即以字节为单位， UTF8中的字符长度可以从1到4个字节，从而使UTF8的宽度可变。
2	UTF-16 以16位为单位的Unicode转换格式。
3	UTF-32 一种以32位为单位的Unicode转换格式，即长整型

Sr.No

Character Set & 描述

UTF-8

以8位为单位的Unicode转换格式，即以字节为单位， UTF8中的字符长度可以从1到4个字节，从而使UTF8的宽度可变。

UTF-16

以16位为单位的Unicode转换格式。

UTF-32

一种以32位为单位的Unicode转换格式，即长整型

Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。

默认情况下，HTML 4处理器应支持UTF-8，而XML处理器应支持UTF-8和UTF-16。因此，所有符合XHTML的处理器也应支持UTF-16。

祝学习愉快！(内容编辑有误？请选中要编辑内容 -> 右键 -> 修改 -> 提交！)

技术教程推荐