我有一个28 GB大小的CSV文件,我想要打印它.这些数据点显然太多了,那么我怎么才能减少数据呢?我想通过计算平均值将大约1000个数据点合并为一个数据点.这是我的DataFrame的 struct :

Time in seconds Force in N
f64 f64
0.0 2310.18
0.0005 2313.23
0.001 2314.14

我想过使用groupby_dynamic,然后计算每组的平均值,但这似乎只有在使用DateTime时才有效?但是,以秒为单位的时间是以浮点数形式给出的.

推荐答案

还可以按整数列进行分组,以创建大小为N的组:

如果整数列上的值为groupby_dynamic,则窗口由以下各项定义:

“1i”#长度1

“10i”#长度10

我们可以使用.int_range()将整数行数添加到分组上:

df = pl.DataFrame({"force": ["A", "B", "C", "D", "E", "F", "G"]})

(df.with_columns(row_nr = pl.int_range(0, pl.count()))
   .groupby_dynamic(
      index_column = "row_nr",
      every = "2i" 
   )
   .agg("force")
)
shape: (4, 2)
┌────────┬────────────┐
│ row_nr ┆ force      │
│ ---    ┆ ---        │
│ i64    ┆ list[str]  │
╞════════╪════════════╡
│ 0      ┆ ["A", "B"] │
│ 2      ┆ ["C", "D"] │
│ 4      ┆ ["E", "F"] │
│ 6      ┆ ["G"]      │
└────────┴────────────┘

Python相关问答推荐

调查TensorFlow和PyTorch性能的差异

日程优化问题不知道更好的方式来呈现解决方案- Python / Gekko

已安装' owiener ' Python模块,但在导入过程中始终没有名为owiener的模块

如何使用scikit-learn Python库中的Agglomerative集群算法以及集群中声明的对象数量?

Python中的Pool.starmap异常处理

Python Hashicorp Vault库hvac创建新的秘密版本,但从先前版本中删除了密钥

Pandas 在最近的日期合并,考虑到破产

仿制药的类型铸造

如何使用matplotlib在Python中使用规范化数据和原始t测试值创建组合热图?

PywinAuto在Windows 11上引发了Memory错误,但在Windows 10上未引发

如何在polars(pythonapi)中解构嵌套 struct ?

DataFrames与NaN的条件乘法

我对我应该做什么以及我如何做感到困惑'

pandas:排序多级列

Scrapy和Great Expectations(great_expectations)—不合作

有没有一种ONE—LINER的方法给一个框架的每一行一个由整数和字符串组成的唯一id?

什么是合并两个embrame的最佳方法,其中一个有日期范围,另一个有日期没有任何共享列?

寻找Regex模式返回与我当前函数类似的结果

基于多个数组的多个条件将值添加到numpy数组

干燥化与列姆化的比较