我有一个包含多个列的Spark DataFrame,我想将其中一列中的日期解析为一个单独的列.对于以下两行,预期输出如下所示:
'www.freelancer/hello/there/I/am/2024/01/03/every/woijf123oijroa.fiow.com'
'www.freelancer/camping/fun/2024/02/14/foijaoijf83747199.1.com'
预期日期输出:
2024/01/03
2024/02/14
-
df.withColumn('date', split(col('website'), '/')[5])
不起作用,因为正斜杠不遵循设定的模式,即使它们遵循,输出结果也是在两个括号之间,而不是在多个括号之间. -
try 使用
locate()
查找日期开始的索引,并从该索引中提取10个值,但它不能正常工作.