我需要做出一个战略决策, Select 在我的程序中保存统计数据框架的数据 struct 的基础.
我在一张大桌子里储存了数十万条记录.每个字段都是不同的类型,包括短字符串.我会对需要快速实时完成的数据进行多元回归分析和操作.我还需要使用一些比较受欢迎和支持的东西.
我知道以下选手:
list of array.array
这是最基本的事情.不幸的是,它不支持字符串.我需要使用numpy作为它的统计部分,所以这个是不可能的.
努比.恩达雷
ndarray
能够在每列中容纳不同类型的数组(例如np.dtype([('name', np.str_, 16), ('grades', np.float64, (2,))])
).这似乎是一个天生的赢家,但是...
Pandas .数据帧
但有了这一点,它就足够有效了吗?
我读到Pandas .数据帧
是no longer based on the 努比.恩达雷
(尽管它共享相同的接口).有人能解释一下吗?或者有更好的数据 struct ?