Python 正则表达式如何解释一个术语中的随机间距换行符

发布于08月17日

我使用的是Python，并使用以下正则表达式从文本文件中提取文本:

    pattern = r'\bItem\s+5\.02\s*([\w\W]*?)(?=\s*(?:Item\s+[89]\.01|Item\s+5\.03|Item\s+5\.07|SIGNATURES|SIGNATURE|Pursuant to the requirements of the Securities Exchange Act of 1934)\b)'

    pd_00['important_text'] = pd_00['text'].str.extract(pattern, re.IGNORECASE, expand=False)

我的问题具体是关于最后一个术语，"根据1934年证券交易法的要求".在文本文件中，这句话有时是随机间隔的，并以新行开始句子的不同部分.我该如何解释这种随机性呢？现在，只有当它以均匀、正常的间距写入时，它才会拾取它.

推荐答案

首先，注意你的图案太过冗长，你可以缩小一些部分:

Item\s+[89]\.01|Item\s+5\.03|Item\s+5\.07  =>  Item\s+(?:[89]\.01|5\.0[37])
SIGNATURES|SIGNATURE                       =>  SIGNATURES?

SIGNATURES?匹配SIGNATURES或SIGNATURE，因为S?匹配一个或零S个字符.

因此，现在，按照指示重新调整图案，并将图案中的空格替换为\s+:

pattern = r'\bItem\s+5\.02\s*([\w\W]*?)(?=\s*(?:Item\s+(?:[89]\.01|5\.0[37])|SIGNATURES?|Pursuant\s+to\s+the\s+requirements\s+of\s+the\s+Securities\s+Exchange\s+Act\s+of\s+1934)\b)'

请看regex demo.