我遇到了一个特定的问题,我有一个ID号的数据帧.其中一些账号已删除前导零.
ID
345
345
543
000922
000345
000345
000543
所以我想做的是创建一个通用的方法来判断我们是否删除了前导零.所以基本上,在我的真实数据集中会有数百万行.所以我想用pandas方法来说明ID的某个部分是否与一个部分的零相匹配,从而将其放入另一个数据帧中,以便我可以进一步判断.
我是这样做的:
new_df = df.loc[df['ID'].isin(df['ID'])]
我的理由是,我想过滤该数据集,以确定是否有任何ID在完整的ID中.
现在我有了
ID
345
345
543
000345
000345
000543
我可以用一个.unique()获取每个唯一组合的系列.
ID
345
543
000345
000543
对于小数据集来说,这很好.但对于数以百万计的人来说,我想知道怎样才能更容易地进行这项判断.
我试图找到一种方法来创建一个字典,其中键是3位数字,值是它的完整ID.反之亦然.
注意:它并不总是3位数.例如,可以是4567,其中实际值为004567.