data.table 按行求和，平均值，最小值，最大值，如 dplyr

发布于07月07日

还有其他关于datatable上的行运算符的帖子.他们不是too simple岁就是specific scenario岁

我的问题更一般.有一个使用dplyr的解决方案.我已经try 过了，但没有找到使用数据的等效解决方案.表语法.你能推荐一个优雅的数据吗.与dplyr版本复制相同结果的表解决方案？

EDIT 1:真实数据集(10MB，73000行，24个数字列的统计数据)上建议解决方案的基准概要.基准测试结果是主观的.然而，经过的时间始终是可重复的.

| Solution By | Speed compared to dplyr     |
|-------------|-----------------------------|
| Metrics v1  |  4.3 times SLOWER (use .SD) |
| Metrics v2  |  5.6 times FASTER           |
| ExperimenteR| 15   times FASTER           |
| Arun v1     |  3   times FASTER (Map func)|
| Arun v2     |  3   times FASTER (foo func)|
| Ista        |  4.5 times FASTER           |

EDIT 2:我在一天后添加了NACount列.这就是为什么在各种贡献者建议的解决方案中找不到本专栏的原因.

Data Setup

library(data.table)
dt <- data.table(ProductName = c("Lettuce", "Beetroot", "Spinach", "Kale", "Carrot"),
    Country = c("CA", "FR", "FR", "CA", "CA"),
    Q1 = c(NA, 61, 40, 54, NA), Q2 = c(22,  8, NA,  5, NA),
    Q3 = c(51, NA, NA, 16, NA), Q4 = c(79, 10, 49, NA, NA))

#    ProductName Country Q1 Q2 Q3 Q4
# 1:     Lettuce      CA NA 22 51 79
# 2:    Beetroot      FR 61  8 NA 10
# 3:     Spinach      FR 40 NA NA 49
# 4:        Kale      CA 54  5 16 NA
# 5:      Carrot      CA NA NA NA NA

SOLUTION using dplyr + rowwise()

library(dplyr) ; library(magrittr)
dt %>% rowwise() %>% 
    transmute(ProductName, Country, Q1, Q2, Q3, Q4,
     AVG = mean(c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     MIN = min (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     MAX = max (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     SUM = sum (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     NAcnt= sum(is.na(c(Q1, Q2, Q3, Q4))))

#   ProductName Country Q1 Q2 Q3 Q4      AVG MIN  MAX SUM NAcnt
# 1     Lettuce      CA NA 22 51 79 50.66667  22   79 152     1
# 2    Beetroot      FR 61  8 NA 10 26.33333   8   61  79     1
# 3     Spinach      FR 40 NA NA 49 44.50000  40   49  89     2
# 4        Kale      CA 54  5 16 NA 25.00000   5   54  75     1
# 5      Carrot      CA NA NA NA NA      NaN Inf -Inf   0     4

ERROR with data.table (compute entire column instead of per-row)

dt[, .(ProductName, Country, Q1, Q2, Q3, Q4,
    AVG = mean(c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    MIN = min (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    MAX = max (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    SUM = sum (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    NAcnt= sum(is.na(c(Q1, Q2, Q3, Q4))))]

#    ProductName Country Q1 Q2 Q3 Q4      AVG MIN MAX SUM NAcnt
# 1:     Lettuce      CA NA 22 51 79 35.90909   5  79 395     9
# 2:    Beetroot      FR 61  8 NA 10 35.90909   5  79 395     9
# 3:     Spinach      FR 40 NA NA 49 35.90909   5  79 395     9
# 4:        Kale      CA 54  5 16 NA 35.90909   5  79 395     9
# 5:      Carrot      CA NA NA NA NA 35.90909   5  79 395     9

ALMOST solution but more complex and missing Q1,Q2,Q3,Q4 output columns

dtmelt <- reshape2::melt(dt, id=c("ProductName", "Country"),
            variable.name="Quarter", value.name="Qty")

dtmelt[, .(AVG = mean(Qty, na.rm=TRUE),
    MIN = min (Qty, na.rm=TRUE),
    MAX = max (Qty, na.rm=TRUE),
    SUM = sum (Qty, na.rm=TRUE),
    NAcnt= sum(is.na(Qty))), by = list(ProductName, Country)]

#    ProductName Country      AVG MIN  MAX SUM NAcnt
# 1:     Lettuce      CA 50.66667  22   79 152     1
# 2:    Beetroot      FR 26.33333   8   61  79     1
# 3:     Spinach      FR 44.50000  40   49  89     2
# 4:        Kale      CA 25.00000   5   54  75     1
# 5:      Carrot      CA      NaN Inf -Inf   0     4

library(matrixStats) dt[, `:=`(MIN = rowMins(as.matrix(.SD), na.rm=T), MAX = rowMaxs(as.matrix(.SD), na.rm=T), AVG = rowMeans(.SD, na.rm=T), SUM = rowSums(.SD, na.rm=T)), .SDcols=c(Q1, Q2,Q3,Q4)] dt # ProductName Country Q1 Q2 Q3 Q4 MIN MAX AVG SUM # 1: Lettuce CA NA 22 51 79 22 79 50.66667 152 # 2: Beetroot FR 61 8 NA 10 8 61 26.33333 79 # 3: Spinach FR 40 NA 79 49 40 79 56.00000 168 # 4: Kale CA 54 5 16 NA 5 54 25.00000 75 # 5: Carrot CA NA NA NA NA Inf -Inf NaN 0

dt <- rbindlist(lapply(1:100000, function(i)dt)) system.time(dt[, `:=`(MIN = rowMins(as.matrix(.SD), na.rm=T), MAX = rowMaxs(as.matrix(.SD), na.rm=T), AVG = rowMeans(.SD, na.rm=T), SUM = rowSums(.SD, na.rm=T)), .SDcols=c("Q1", "Q2","Q3","Q4")]) # user system elapsed # 0.089 0.004 0.093

library(dplyr) ; library(magrittr) system.time(dt %>% rowwise() %>% transmute(ProductName, Country, Q1, Q2, Q3, Q4, MIN = min (c(Q1, Q2, Q3, Q4), na.rm=TRUE), MAX = max (c(Q1, Q2, Q3, Q4), na.rm=TRUE), AVG = mean(c(Q1, Q2, Q3, Q4), na.rm=TRUE), SUM = sum (c(Q1, Q2, Q3, Q4), na.rm=TRUE))) # user system elapsed # 80.832 0.111 80.974 system.time(dt[, `:=`(AVG= mean(as.numeric(.SD),na.rm=TRUE),MIN = min(.SD, na.rm=TRUE),MAX = max(.SD, na.rm=TRUE),SUM = sum(.SD, na.rm=TRUE)),.SDcols=c("Q1", "Q2","Q3","Q4"),by=1:nrow(dt)] ) # user system elapsed # 141.492 0.196 141.757

data.table 按行求和，平均值，最小值，最大值，如 dplyr

推荐答案

R相关问答推荐

使用lares：：corr_var函数在for循环中分配变量的问题

根据列中的数字移动单元格位置

如何生成包含可能条目列表而不是计数的表？

了解.groups的目的= dØr的摘要功能中的删除

多个ggpredicate对象的平均值

编码变量a、b、c以匹配来自另一个数据点的变量x

使用ggplot将平滑线添加到条形图

以R中的正确顺序将日期时间字符列转换为posixct

R中的子集文件—读取文件名索引为4位数字序列，例如0001到4000，而不是1到4000)

如何删除gggvenn与gggplot绘制的空白？

为什么观察不会被无功值变化触发？

如果第一个列表中的元素等于第二个列表的元素，则替换为第三个列表的元素

单个轮廓重叠条的单独图例

S用事件解决物质平衡问题

在不丢失空值的情况下取消列出嵌套列表

基于数据集属性将科分配给物种

R中Gamma回归模型均方误差的两种计算方法不一致

使用R将简单的JSON解析为嵌套框架

避免在图例中显示VLINS组

将美学添加到ggploy中的文本标签