可能很明显,但我只是想确认一下:
Pandas 中最适合数字ID的数据类型是什么?
假设我有一个顺序数字ID类型user_id
,这会更好:
-
int64
型(考虑到字段的数字表示,这似乎是最明显的 Select ) -
category
类型(考虑到ID不用于实际的数字操作,而是作为唯一标识符,这可能更有意义)
对于基于字符的ID,同样的问题是,使用object
还是category
类型更好?
我很想使用category
数据类型(认为可能会有性能优势,因为我可以想象这些类别会以某种方式优化/散列/索引以提高性能),但我想知道这种数据类型是否比我的数据集中可能存在的数千个唯一用户ID中的category
个更适合更有限的不同值子集.
谢谢