HTML - 字符编码介绍 首页HTMLHTML - 字符编码

字符编码是一种将字节转换为字符的方法,为了正确地验证或显示HTML文档,程序必须选择适当的字符编码。

在计算机上使用的最常见的字符集或字符编码是ASCII-美国信息交换标准代码,这可能是用于电子编码文本的最广泛使用的字符集。

ASCII编码仅支持大写和小写拉丁字母,数字0-9和一些额外的字符,这些字符总共总共128个字符。您可以查看完整的ASCII字符

但是,许多语言使用带重音符号的拉丁字符或完全不同的字母。ASCII不能解决这些字符。因此,如果要使用任何非ASCII字符,则需要了解字符编码。

国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用了广泛支持的ISO-8859-1编码。

这是在世界范围内使用的字符集及其说明的列表。

Sr.NoCharacter Set & 描述
1

ISO-8859-1

拉丁字母第1部分

覆盖北美,西欧,拉丁美洲,加勒比海,加拿大,非洲

2

ISO-8859-2

拉丁字母第2部分

覆盖东欧

3

ISO-8859-3

拉丁字母第3部分

涵盖SE Europe,世界语及其他

4

ISO-8859-4

拉丁字母第4部分

涵盖斯堪的纳维亚/波罗的海(以及ISO-8859-1中未包含的其他内容)

5

ISO-8859-5

拉丁/西里尔字母第5部分

6

ISO-8859-6

拉丁/阿拉伯字母第6部分

7

ISO-8859-7

拉丁/希腊字母第7部分

8

ISO-8859-8

拉丁/希伯来语字母第8部分

9

ISO-8859-9

拉丁5字母第9部分

与ISO-8859-1相同,但土耳其字符替换了冰岛字符

10

ISO-8859-10

拉丁文6拉丁文6拉普,北欧和爱斯基摩人

11

ISO-8859-15

与ISO-8859-1相同,但添加了更多字符

12

ISO-2022-JP

拉丁/日语字母第1部分

13

ISO-2022-JP-2

拉丁/日语字母第2部分

14

ISO-2022-KR

拉丁文/韩文字母第1部分

然后创建了Unicode联盟,以设计一种显示不同语言的所有字符的方法,而不是使用针对不同语言的这些不同的不兼容字符代码。

因此,如果要创建使用来自多个字符集的字符的文档,则可以使用单个Unicode字符编码来进行操作。

因此,Unicode指定可以以特殊方式处理字符串的编码,以便为其包含的庞大字符集留出足够的空间。这些被称为UTF8,UTF-16和UTF-32。

Sr.NoCharacter Set & 描述
1

UTF-8

以8位为单位的Unicode转换格式,即以字节为单位, UTF8中的字符长度可以从1到4个字节,从而使UTF8的宽度可变。

2

UTF-16

以16位为单位的Unicode转换格式。

3

UTF-32

一种以32位为单位的Unicode转换格式,即长整型

Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。

默认情况下,HTML 4处理器应支持UTF-8,而XML处理器应支持UTF-8和UTF-16。因此,所有符合XHTML的处理器也应支持UTF-16。

这一章你学到了什么?做个笔记,好记忆不如烂笔头! 请将遇到的问题写入评论区中,大家一起进步。

祝学习愉快!(您也可以 选中需要修改的内容->右键->进行编辑)

点我分享笔记