我正在try 编写一个Python正则表达式模式,它将允许我捕获给定文本中字母由相同符号或空格分隔的单词.
例如,在文本"This is s u p e r and s.u.p.e.r and s?u?p?e?r and s!u.p!e.r
"中,我的目标是提取单词"s u p e r
"、"s.u.p.e.r
"和s?u?p?e?r
.但是,我想排除"s!u.p!e.r
",因为它在单词中没有相同的一致分隔符.
我目前正在使用以下内容:
x="This is s u p e r and s.u.p.e.r and s?u?p?e?r and s!u.p!e.r"
pattern = r"(?:\b\w[^\w\d]){2,}"
re.findall(pattern, x)
['s u p e r ', 's.u.p.e.r ', 's?u?p?e?r ', 's!u.p!e.']
我只是好奇是否有可能排除那些没有相同符号的 case .