我使用的是Python,并使用以下正则表达式从文本文件中提取文本:
pattern = r'\bItem\s+5\.02\s*([\w\W]*?)(?=\s*(?:Item\s+[89]\.01|Item\s+5\.03|Item\s+5\.07|SIGNATURES|SIGNATURE|Pursuant to the requirements of the Securities Exchange Act of 1934)\b)'
pd_00['important_text'] = pd_00['text'].str.extract(pattern, re.IGNORECASE, expand=False)
我的问题具体是关于最后一个术语,"根据1934年证券交易法的要求".在文本文件中,这句话有时是随机间隔的,并以新行开始句子的不同部分.我该如何解释这种随机性呢?现在,只有当它以均匀、正常的间距写入时,它才会拾取它.