Elixir 印记详解

我们已经知道Elixir提供了双引号包裹的字符串和单引号包裹的字符列表.然而,这只覆盖了语言中由着文本表示的结构体表面.例如,创造原子大多数是以:atom来表示.

Elixir的目标之一是扩展性:开发者应当可以将语言扩展以适应任何特定领域.计算机科学的应用是如此之广,没有任何语言能够在核心中处理许多的领域.所以,我们最好的选择是提高语言的扩展性,使得开发者,公司和社区能够将语言扩展到他们相关的领域.

本章,我们将探索印记,它是语言提供的一种用于处理文本表示的机制.印记由波浪符(~)开头,之后是定义印记的单词,然后是分隔符;修饰符可以选择性添加在最后的分隔符之后.

Elixir中最常用的印记是~r,用于创造正则表达式:

# A regular expression that matches strings which contain "foo" or "bar":
iex> regex = ~r/foo|bar/
~r/foo|bar/
iex> "foo" =~ regex
true
iex> "bat" =~ regex
false

Elixir提供Perl兼容的正则表达式(regexes),由PCRE库实现.正则也支持修饰符.例如,修饰符i使得正则表达式对大小写不敏感:

iex> "HELLO" =~ ~r/hello/
false
iex> "HELLO" =~ ~r/hello/i
true

查看Regex模块以获得更多关于正则表达式的修饰符和操作的信息.

目前,所有的例子都用/来包围正则表达式.然而印记支持8种分隔符:

~r/hello/
~r|hello|
~r"hello"
~r'hello'
~r(hello)
~r[hello]
~r{hello}
~r<hello>

支持不同的分隔符的原因是可以更好地适应不同的印记.例如,使用括号作为分隔符可能会和正则中的括号搞混.然而,括号对于其它的印记可能很好用,比如我们将看到的.

除了正则表达式,Elixir还提供了3种印记.

字符串

~s印记用于生成字符串,作用于双引号相同.当字符串包含双引号和单引号时,~s印记就很有用了:

iex> ~s(this is a string with "double" quotes, not 'single' ones)
"this is a string with \"double\" quotes, not 'single' ones"

字符列表

~c印记用于生成字符列表:

iex> ~c(this is a char list containing 'single quotes')
'this is a char list containing \'single quotes\''

单词列表

~w印记用于生成单词列表(单词 只是普通字符串).在~w印记中,单词由空格分隔.

iex> ~w(foo bar bat)
["foo", "bar", "bat"]

~w印记也支持c,sa修饰符(分别适用于字符列表,字符串和原子),能够指定最后的列表中元素的数据类型:

iex> ~w(foo bar bat)a
[:foo, :bar, :bat]

除了小写印记,Elixir也支持用于处理转义字符与插值的大写印记.虽然~s~S都会返回字符串,但前者支持转义代码和插值,而后者不支持:

iex> ~s(String with escape codes \x26 #{"inter" <> "polation"})
"String with escape codes & interpolation"
iex> ~S(String without escape codes \x26 without #{interpolation})
"String without escape codes \\x26 without \#{interpolation}"

下列转义代码可以用于字符串和字符列表:

\" – 双引号
\' – 单引号
\\ – 单反斜杠
\a – 响铃/警告
\b – 推格
\d - 删除
\e - 退出
\f - 换页符
\n – 换行符
\r – 回车
\s – 空格
\t – 制表符
\v – 垂直制表符
\0 - 空字节
\xDD - 以16进制表示单字节 (例如 \x13)
\uDDDD and \u{D...} - 以16进制表示Unicode代码点 (例如 \u{1F600})

印记也支持大段注释,以三个单引号或双引号分隔:

iex> ~s"""
...> this is
...> a heredoc string
...> """

大段注释印记最常用于书写文档.例如,在文档中书写转义字符会很麻烦,因为需要对某些符号使用双重转义:

@doc """
Converts double-quotes to single-quotes.

## Examples

    iex> convert("\\\"foo\\\"")
    "'foo'"

"""
def convert(...)

使用~S,这些问题就可以避免:

@doc ~S"""
Converts double-quotes to single-quotes.

## Examples

    iex> convert("\"foo\"")
    "'foo'"

"""
def convert(...)

正如本章开始时提到的,Elixir中的印记也具有扩展性.事实上,使用印记~r/foo/i相当于使用一个二进制数和一个字符列表作为参数调用sigil_r:

iex> sigil_r(<<"foo">>, 'i')
~r"foo"i

我们可以通过sigil_r获取~r印记的文档:

iex> h sigil_r
...

我们也可以简单地在sigil_{identifier}模式之后添加需要实现的函数来自定义我们的印记.例如,让我们用~i印记来返回一个整数(使用修饰符n可以将其变为负数):

iex> defmodule MySigils do
...>   def sigil_i(string, []), do: String.to_integer(string)
...>   def sigil_i(string, [?n]), do: -String.to_integer(string)
...> end
iex> import MySigils
iex> ~i(13)
13
iex> ~i(42)n
-42

印记也可以在宏的帮助下进行编译时工作.例如,在编译源代码时,Elixir中的正则表达式会被编译成一个高效的表示方法,在运行时就可以跳过此步骤.如果你对此感兴趣,我们建议你学习宏的知识,并了解印记是如何在Kernel模块中被实现的(sigil_*函数就是在那里定义的).

教程来源于Github,感谢Jancd大佬的无私奉献,致敬!

技术教程推荐

从0开始学架构 -〔李运华〕

Go语言核心36讲 -〔郝林〕

程序员的数学基础课 -〔黄申〕

Elasticsearch核心技术与实战 -〔阮一鸣〕

浏览器工作原理与实践 -〔李兵〕

编译原理实战课 -〔宫文学〕

容器实战高手课 -〔李程远〕

实用密码学 -〔范学雷〕

React Native 新架构实战课 -〔蒋宏伟〕