我正在处理一个项目,其中我有一个由两列(字符串、字符串计数)组成的pyspark数据帧,这两列分别是字符串和大整数.数据集是脏的,因此某些单词附加了非字母字符(例如"Date"、"_Date"、"!Date"和"Date,"都是单独的项,但应该只是"Date")
print(dirty_df.schema)
output---> StructType([StructField('count', LongType(), True), StructField('word', StringType(), True)])
dirty_df.show()
+------+------+
| count| word|
+------+------+
|32375 | date|
|359 | _date|
|306 | !date|
|213 | date,|
|209 | snap|
|204 | ^snap|
|107 | +snap|
|12 | snap?|
我需要减少数据帧,使Date、_Date、!Date和Date都只是‘Date’,并更新它们的计数以匹配.问题是:我需要避免使用类似的词,比如‘Dates’,‘Date’,‘Date’,‘Todate’等等.
Goal个
+------+------+
| count| word|
+------+------+
|33253 | date|
|532 | snap|
你觉得我该怎么处理这件事?