data.table 上的 dplyr，我真的在使用 data.table 吗

发布于12月17日

如果我在datatable语法的基础上使用dplyr语法，那么在仍然使用dplyr语法的情况下，我是否获得了datatable的所有速度优势？换句话说，如果我用dplyr语法查询数据表，我是否会误用它？或者我需要使用纯数据表语法来利用它的所有功能.

提前谢谢你的建议.代码示例:

library(data.table)
library(dplyr)

diamondsDT <- data.table(ggplot2::diamonds)
setkey(diamondsDT, cut) 

diamondsDT %>%
    filter(cut != "Fair") %>%
    group_by(cut) %>%
    summarize(AvgPrice = mean(price),
                 MedianPrice = as.numeric(median(price)),
                 Count = n()) %>%
    arrange(desc(Count))

结果:

#         cut AvgPrice MedianPrice Count
# 1     Ideal 3457.542      1810.0 21551
# 2   Premium 4584.258      3185.0 13791
# 3 Very Good 3981.760      2648.0 12082
# 4      Good 3928.864      3050.5  4906

这是我提出的数据表等价性.不确定是否符合DT良好实践.但我想知道，在幕后，代码是否真的比dplyr语法更有效:

diamondsDT [cut != "Fair"
        ] [, .(AvgPrice = mean(price),
                 MedianPrice = as.numeric(median(price)),
                 Count = .N), by=cut
        ] [ order(-Count) ]

data.table 上的 dplyr，我真的在使用 data.table 吗

推荐答案

Operations involving `i` (== `filter()` and `slice()` in dplyr)

通过引用分配

其他功能

R相关问答推荐

R的法国工作日

在之前合并的数据.tables中分配新列后.internal.selfref无效

创建计数(带重置)变量

如何创建具有总计列和ggplot 2所有条线的百分比标签的堆叠条形图？

如果窗口在CLARME或集团之外，则有条件领先/滞后滚动总和返回NA

R中的枢轴/转置

更改绘图上的x轴断点，而不影响风险？

根据R中两个变量的两个条件删除带有dspirr的行

过滤器数据.基于两列的帧行和R中的外部向量

R函数，用于生成伪随机二进制序列，其中同一数字在一行中不出现超过两次

使用data.table：：fcase()而不是dplyr：：case_When()时保持值

如何基于两个条件从一列中提取行

如何在R库GoogleDrive中完全删除预先授权的Google帐户？

在GG图中绘制射线的自动程序

R-按最接近午夜的时间进行筛选

如何使用For-R循环在向量中找到一系列数字

扩展R中包含列表的数据框

为什么我对圆周率图的蒙特卡罗估计是空的？

如何在R中使用混合GAM模型只对固定的影响因素进行适当的预测？

为R中的16组参数生成10000个样本的有效方法是什么？

推荐答案

Operations involving i (== filter() and slice() in dplyr)

通过引用分配

其他功能

R相关问答推荐

Operations involving `i` (== `filter()` and `slice()` in dplyr)