Python 对某些列的总数进行民意调查，但不单独列出每列

发布于04月20日

假设我有这个相框:

df = polars.DataFrame(dict(
  j=[2, 7, 1, 8],
  k=[False, True, True, False],
  l=['foo', 'bar', 'quux', 'bin'],
  u=[5.0, 8.0, 13.0, 21.0],
  ))
print(df)

 j (i64)  k (bool)  l (str)  u (f64)
 2        false     foo      5.0
 7        true      bar      8.0
 1        true      quux     13.0
 8        false     bin      21.0
shape: (4, 4)

我只能对某些列进行行和，并将其他列设置为None:

dfj = (df
  .select(
    polars.col('j').sum(),
    polars.lit(None).alias('k'),
    polars.lit(None).alias('l'),
    polars.col('u').sum(),
    )
  )
print(dfj)

 j (i64)  k (null)  l (null)  u (f64)
 18       null      null      47.0
shape: (1, 4)

我想保持列顺序，这样我就可以对两个帧进行polars.concat次，以获得具有总数行的一个跨帧.

有两个潜在的用例规定了"某列"的含义:

具有某些类型的列
具有特定名称的列

有没有一种方法可以在不单独列出每列的情况下做到这一点？

推荐答案

一种 Select 是使用diagonal concat strategy.

diagonal:查找列架构之间的联合并用空填充缺失的列值

pl.concat(
   [
      df,
      df.select("j", "u").sum()
   ],
   how = "diagonal"
)

shape: (5, 4)
┌─────┬───────┬──────┬──────┐
│ j   ┆ k     ┆ l    ┆ u    │
│ --- ┆ ---   ┆ ---  ┆ ---  │
│ i64 ┆ bool  ┆ str  ┆ f64  │
╞═════╪═══════╪══════╪══════╡
│ 2   ┆ false ┆ foo  ┆ 5.0  │
│ 7   ┆ true  ┆ bar  ┆ 8.0  │
│ 1   ┆ true  ┆ quux ┆ 13.0 │
│ 8   ┆ false ┆ bin  ┆ 21.0 │
│ 18  ┆ null  ┆ null ┆ 47.0 │
└─────┴───────┴──────┴──────┘

好像没有concat也能做的事情

使用第二个.select()来重新排序列有点尴尬，但也许可以改进:

(df.select(
   pl.col("j", "u").append(pl.col("j", "u").sum()),
   pl.exclude("j", "u").append(None)
 )
 .select(df.columns) # reorder columns
)

shape: (5, 4)
┌─────┬───────┬──────┬──────┐
│ j   ┆ k     ┆ l    ┆ u    │
│ --- ┆ ---   ┆ ---  ┆ ---  │
│ i64 ┆ bool  ┆ str  ┆ f64  │
╞═════╪═══════╪══════╪══════╡
│ 2   ┆ false ┆ foo  ┆ 5.0  │
│ 7   ┆ true  ┆ bar  ┆ 8.0  │
│ 1   ┆ true  ┆ quux ┆ 13.0 │
│ 8   ┆ false ┆ bin  ┆ 21.0 │
│ 18  ┆ null  ┆ null ┆ 47.0 │
└─────┴───────┴──────┴──────┘