Python 正则表达式是否等同于 Ruby 的原子分组

发布于11月27日

Ruby的正则表达式有一个名为atomic grouping (?>regexp)的功能，如here所述，在Python的re模块中是否有任何等效功能？

推荐答案

Python不直接支持此功能，但您可以通过使用零宽度前瞻断言((?=RE))来模拟它，该断言从当前点开始匹配您想要的语义，将命名组((?P<name>RE))放在前瞻中，然后使用命名的反向引用((?P=name))精确匹配零宽度断言匹配的内容.结合在一起，这将为您提供相同的语义，代价是创建一个额外的匹配组和大量语法.

例如，您提供的链接给出了

/"(?>.*)"/.match('"Quote"') #=> nil

我们可以在Python中模拟这一点:

re.search(r'"(?=(?P<tmp>.*))(?P=tmp)"', '"Quote"') # => None

我们可以证明我在做一些有用的事情，而不仅仅是发出线条噪音，因为如果我们改变它，使内部群体不吃掉最后"个，它仍然匹配:

re.search(r'"(?=(?P<tmp>[A-Za-z]*))(?P=tmp)"', '"Quote"').groupdict()
# => {'tmp': 'Quote'}

您也可以使用匿名组和数字反向引用，但这会充满线条噪音:

re.search(r'"(?=(.*))\1"', '"Quote"') # => None

(完全公开:我从perl的perlre个文档中学到了这个技巧，在(?>...)的文档中提到了它.)

除了具有正确的语义，它还具有适当的性能属性.如果我们举出perlre个例子:

[nelhage@anarchique:~/tmp]$ cat re.py
import re
import timeit


re_1 = re.compile(r'''\(
                           (
                             [^()]+           # x+
                           |
                             \( [^()]* \)
                           )+
                       \)
                   ''', re.X)
re_2 = re.compile(r'''\(
                           (
                             (?=(?P<tmp>[^()]+ ))(?P=tmp) # Emulate (?> x+)
                           |
                             \( [^()]* \)
                           )+
                       \)''', re.X)

print timeit.timeit("re_1.search('((()' + 'a' * 25)",
                    setup  = "from __main__ import re_1",
                    number = 10)

print timeit.timeit("re_2.search('((()' + 'a' * 25)",
                    setup  = "from __main__ import re_2",
                    number = 10)

我们看到了巨大的进步:

[nelhage@anarchique:~/tmp]$ python re.py
96.0800571442
7.41481781006e-05

当我们扩展搜索字符串的长度时，这只会变得更加引人注目.

Ruby相关问答推荐

Ruby 中使用的-S标志是什么？

RVM 和 OpenSSL 的问题

如何判断一个对象在 Ruby 中是否可迭代？

如何使用 Ruby 删除字符串中某个字符后的子字符串？

我在哪里可以找到积极开发的 Ruby lint 工具？

Ruby检测方法

ruby：对两个或多个数组的对应成员求和

如何使用 if..else 块的结果分配变量？

Ruby 中的 Object 和 BasicObject 有什么区别？

Rails 在最后一个之前加入逗号和and的字符串列表

如何将消息附加到 RSpec 判断？

格式化 Ruby 的漂亮打印

Ruby 中的方法： objects与not？

STDERR.puts 与 Ruby 中的 puts 有何不同？

从字符串中删除所有特殊字符 - ruby

Bundle不适用于 rbenv

如何在 ruby 中进行命名捕获

使用 Ruby 将大写字符串转换为标题大小写

很好地格式化输出到控制台，指定选项卡的数量

如何合并 Ruby 哈希

实用课程推荐