Python 如何减少 Polars DataFrame 中的数据量

发布于08月23日

我有一个28 GB大小的CSV文件，我想要打印它.这些数据点显然太多了，那么我怎么才能减少数据呢？我想通过计算平均值将大约1000个数据点合并为一个数据点.这是我的DataFrame的 struct :

Time in seconds	Force in N
f64	f64
0.0	2310.18
0.0005	2313.23
0.001	2314.14

我想过使用groupby_dynamic，然后计算每组的平均值，但这似乎只有在使用DateTime时才有效？但是，以秒为单位的时间是以浮点数形式给出的.

df = pl.DataFrame({"force": ["A", "B", "C", "D", "E", "F", "G"]}) (df.with_columns(row_nr = pl.int_range(0, pl.count())) .groupby_dynamic( index_column = "row_nr", every = "2i" ) .agg("force") )

shape: (4, 2) ┌────────┬────────────┐ │ row_nr ┆ force │ │ --- ┆ --- │ │ i64 ┆ list[str] │ ╞════════╪════════════╡ │ 0 ┆ ["A", "B"] │ │ 2 ┆ ["C", "D"] │ │ 4 ┆ ["E", "F"] │ │ 6 ┆ ["G"] │ └────────┴────────────┘

Python 如何减少 Polars DataFrame 中的数据量

推荐答案

Python相关问答推荐

调查TensorFlow和PyTorch性能的差异

日程优化问题不知道更好的方式来呈现解决方案- Python / Gekko

已安装' owiener ' Python模块，但在导入过程中始终没有名为owiener的模块

如何使用scikit-learn Python库中的Agglomerative集群算法以及集群中声明的对象数量？

Python中的Pool.starmap异常处理

Python Hashicorp Vault库hvac创建新的秘密版本，但从先前版本中删除了密钥

Pandas 在最近的日期合并，考虑到破产

仿制药的类型铸造

如何使用matplotlib在Python中使用规范化数据和原始t测试值创建组合热图？

PywinAuto在Windows 11上引发了Memory错误，但在Windows 10上未引发

如何在polars(pythonapi)中解构嵌套 struct ？

DataFrames与NaN的条件乘法

我对我应该做什么以及我如何做感到困惑'

pandas：排序多级列

Scrapy和Great Expectations(great_expectations)—不合作

有没有一种ONE—LINER的方法给一个框架的每一行一个由整数和字符串组成的唯一id？

什么是合并两个embrame的最佳方法，其中一个有日期范围，另一个有日期没有任何共享列？

寻找Regex模式返回与我当前函数类似的结果

基于多个数组的多个条件将值添加到numpy数组

干燥化与列姆化的比较