我有与客户交谈的德语邮箱和文字记录.它们包括我需要删除的个人身份信息.因此,这是一个数据匿名化任务.文本将是"Hello Mr. Smith"、"Dear Mr Smith"、"Hello Lisa"等,后跟对话.我需要保留这段对话以作进一步分析.我想到了三个解决方案:
A) compiling a list of names: 在这个阶段,我不知道将提到的所有名字.我没有访问CRM数据库的权限.因此,汇编列表并将其添加到停用词语料库将是耗时的和/或容易出错的.
B) Part-of-Speech Tagging (PoS) / Named Entity Recognition (NER): 这还将删除产品名称和地点.我需要保留这些信息.因此,不幸的是,NER不是一个 Select .
C) Regular expression (regex): 用regEx来匹配称呼语."亲爱的",并删除后面的字眼.This answer给了我一个很好的起点,但它假设我知道我需要删除的名字后面的单词,但我不知道.
import re
print re.sub(r'(?<=copy )(.*)(?=from)', '', "copy table values from 'a.dat';")
我怎样才能修改代码来删除称呼后面的单词呢?
我在lookaround上读了一下,在regex101上玩了一会儿,但还是弄不明白.
另外,我是否需要首先对字符串进行标记化?
Pandas str.replace
的解决方案也是受欢迎的.