我需要做出一个战略决策, Select 在我的程序中保存统计数据框架的数据 struct 的基础.

我在一张大桌子里储存了数十万条记录.每个字段都是不同的类型,包括短字符串.我会对需要快速实时完成的数据进行多元回归分析和操作.我还需要使用一些比较受欢迎和支持的东西.

我知道以下选手:

list of array.array

这是最基本的事情.不幸的是,它不支持字符串.我需要使用numpy作为它的统计部分,所以这个是不可能的.

努比.恩达雷

ndarray能够在每列中容纳不同类型的数组(例如np.dtype([('name', np.str_, 16), ('grades', np.float64, (2,))])).这似乎是一个天生的赢家,但是...

Pandas .数据帧

但有了这一点,它就足够有效了吗?

我读到Pandas .数据帧no longer based on the 努比.恩达雷(尽管它共享相同的接口).有人能解释一下吗?或者有更好的数据 struct ?

推荐答案

pandas.DataFrame真棒,与numpy的很多人都能很好地互动.DataFrame的大部分内容都是用Cython编写的,并且经过了相当优化.我怀疑Pandas API的易用性和丰富性将大大超过围绕numpy滚动自己的接口所能获得的任何潜在好处.

Python-3.x相关问答推荐

如何验证具有内部json字符串的json字符串?

Pandas :从元组字典创建数据帧

如何通过Pandas为不同的列集垂直设置列数据?

生成具有偶数个 0 和 1 的给定长度的所有二进制数

在 string.find() 条件下加入两个 Dataframes

使用 multiprocessing 处理图像

单击图形时 plotly graph_objects 持久性数据

将变量传递给 Google Cloud 函数

为什么 setattr 在绑定方法上失败

TimescaleDB:是否可以从 Python 调用create_hypertable?

如何为 Python 中的线程设置异步事件循环?

Python图例属性错误

if 语句中冒号的语法错误

PIL 在图像上绘制半透明方形覆盖

如何正确创建自定义文本编解码器?

如何使用 Python 订阅 Websocket API 通道?

为什么 Python 不能识别我的 utf-8 编码源文件?

从 csv 中删除单行而不复制文件

如何从 Python 3 导入 FileNotFoundError?

有没有办法在多个线程中使用 asyncio.Queue ?