我有一个名为df
的数据集,其中有年、月和日变量.我想使用write_dataset
函数输出一个具有标准箭头数据集语法的文件夹,如下图所示:
在每个文件夹中,将有Month=1、Month=2,依此类推.
现在,为了创建它,我使用了以下代码:
df <- df %>% group_by(year, month, day)
output_folder = "my/path"
arrow::write_dataset(df,
output_folder,
format = "parquet",
)
但是,我的数据集太大,我想使用data.table
来利用快速分组.我这样做的方法如下:
grouping_cols = c("year", "month", "day")
setkeyv(df, grouping_cols)
arrow::write_dataset(df,
output_folder,
format = "parquet",
)
但是,现在不对结果进行分组,并且返回单个.parket文件(没有充分利用arrow::write_dataset
的潜力).
有没有办法让相同的数据集按指定的列分组,而不是基于data.table
个分组而不是dplyr
个分组?