要编辑基准,只需执行以下操作:
a = data.table(id=letters[1:2], var=1:2)
b = copy(a)
c = copy(b) # let's also just try modifying same value in place
# to see how well changing existing values does
microbenchmark(a <- rbind(a, data.table(id="c", var=3)),
b <- rbindlist(list(b, data.table(id="c", var=3))),
c[1, var := 3L],
set(c, 1L, 2L, 3L))
#Unit: microseconds
# expr min lq median uq max neval
# a <- rbind(a, data.table(id = "c", var = 3)) 865.460 1141.2585 1357.1230 1539.4300 6814.492 100
#b <- rbindlist(list(b, data.table(id = "c", var = 3))) 260.440 325.3835 445.4190 522.8825 1143.930 100
# c[1, `:=`(var, 3L)] 482.147 626.5570 778.3135 904.3595 1109.539 100
# set(c, 1L, 2L, 3L) 2.339 5.677 7.5140 9.5170 19.033 100
rbindlist
显然比rbind
好.多亏Matthew Dowle指出了在循环中使用[
的问题,我添加了另一个基准测试set
.
从上面可以看出,你最好的 Select 是使用rbindlist
,或者先调整data.table
的大小,然后填充值(你也可以使用与C++
中的std::vector
类似的策略,如果你不知道数据的大小,那么每次用完空间时都会将大小加倍,然后在填充完数据后,删除多余的行).