我有一个收件箱,需要删除html标签并将数据转换为纯文本.
我发现了以下内容(Python code to remove HTML tags from a string):
import re
CLEANR = re.complile('<.*?>')
def cleanhtml(raw_html):
cleantext = re.sub(CLEANR, '', rawhtml)
return cleartext
我将其应用到我的专栏中,使用:
df['col'] = df['col'].apply(cleanhtml(df['col']))
这导致了错误,因为"col"是数据类型对象的,所以我修改了该函数以将传递的参数转换为字符串,如下所示:
import re
CLEANR = re.complile('<.*?>')
def cleanhtml(raw_html):
cleantext = re.sub(CLEANR, '', str(rawhtml))
return cleartext
代码仍然失败,因为它接收的是对象而不是字符串. 错误是:
名称:col,长度:1021,dype:对象"不是系列"对象的有效函数.
有人能把我推向正确的方向吗? 谢谢.