我有一个带有许多文本条目的Pandas 系列,我正在try 提取所有的日期并对它们进行排序.这些日期有许多不同的格式,所以挑战是获取所有日期并正确排序.我已经能够使用‘str.findall’成功地列出所有日期,但它没有将日期分成月、日和年,所以我真的不能对它们进行排序.然后,我try 使用‘str.Extall’,但它的工作方式与我预期的不同.
日期类型为mm/dd/yyyy、mm/yyyy等的示例:
import pandas as pd
df = pd.Series(['1/1994 Primary Care Doctor:\n', 'sshe plans to move as of 7/8/71 In-Home Services: None\n', 'Reports MRI of brain done 12/2004 at Gravette Medical Center was WNLPrior EEG:\n'])
wfind = df.str.findall(r'\d{1,2}[/-]\d{1,2}?[/-]?\d{2,4}')
wextract = df.str.extractall(r'(\d{1,2})[/-](\d{1,2})?[/-]?(\d{2,4})')
有了extract
个,它就把一年一分为二.对如何处理这一问题有什么建议吗?
我希望的输出是DataFrame
,其中一列包含月,另一列包含日,第三列包含年.希望NaN
在包含日和月的列中,以防两者都不存在.