根据Creating an R dataframe row-by-row,使用rbind
附加到data.frame
并不理想,因为它会创建整个数据的副本.每次都要画框.我如何在R
中积累数据,从而得到data.frame
而不产生这种惩罚?中间格式不需要是data.frame
.
根据Creating an R dataframe row-by-row,使用rbind
附加到data.frame
并不理想,因为它会创建整个数据的副本.每次都要画框.我如何在R
中积累数据,从而得到data.frame
而不产生这种惩罚?中间格式不需要是data.frame
.
First approach
我try 访问预分配数据的每个元素.框架:
res <- data.frame(x=rep(NA,1000), y=rep(NA,1000))
tracemem(res)
for(i in 1:1000) {
res[i,"x"] <- runif(1)
res[i,"y"] <- rnorm(1)
}
但TraceMe会变得疯狂(例如,每次都会将data.frame复制到一个新地址).
Alternative approach (doesn't work either)
一种方法(不确定是否更快,因为我还没有进行基准测试)是创建一个数据列表.框,然后将它们全部放在一起:
makeRow <- function() data.frame(x=runif(1),y=rnorm(1))
res <- replicate(1000, makeRow(), simplify=FALSE ) # returns a list of data.frames
library(taRifx)
res.df <- stack(res)
不幸的是,在创建列表时,我认为您将很难预先分配.例如:
> tracemem(res)
[1] "<0x79b98b0>"
> res[[2]] <- data.frame()
tracemem[0x79b98b0 -> 0x71da500]:
换句话说,替换列表中的一个元素会导致列表被复制.我假设整个列表,但可能只是列表中的那个元素.我对R的内存管理细节不太熟悉.
Probably the best approach
与当今许多速度或内存有限的进程一样,最好的方法可能是使用data.table
而不是data.frame
.由于data.table
具有:=
assign by reference运算符,因此它可以在不重新复制的情况下进行更新:
library(data.table)
dt <- data.table(x=rep(0,1000), y=rep(0,1000))
tracemem(dt)
for(i in 1:1000) {
dt[i,x := runif(1)]
dt[i,y := rnorm(1)]
}
# note no message from tracemem
但正如@MatthewDowle所指出的,set()
是在循环中实现这一点的合适方式.这样做会更快:
library(data.table)
n <- 10^6
dt <- data.table(x=rep(0,n), y=rep(0,n))
dt.colon <- function(dt) {
for(i in 1:n) {
dt[i,x := runif(1)]
dt[i,y := rnorm(1)]
}
}
dt.set <- function(dt) {
for(i in 1:n) {
set(dt,i,1L, runif(1) )
set(dt,i,2L, rnorm(1) )
}
}
library(microbenchmark)
m <- microbenchmark(dt.colon(dt), dt.set(dt),times=2)
(结果如下所示)
Benchmarking
循环运行10000次后,数据表几乎快了整整一个数量级:
Unit: seconds
expr min lq median uq max
1 test.df() 523.49057 523.49057 524.52408 525.55759 525.55759
2 test.dt() 62.06398 62.06398 62.98622 63.90845 63.90845
3 test.stack() 1196.30135 1196.30135 1258.79879 1321.29622 1321.29622
:=
和set()
的比较:
> m
Unit: milliseconds
expr min lq median uq max
1 dt.colon(dt) 654.54996 654.54996 656.43429 658.3186 658.3186
2 dt.set(dt) 13.29612 13.29612 15.02891 16.7617 16.7617
请注意,这里的n
是10^6,而不是上面绘制的基准中的10^5.所以有一个数量级的工作量,结果是以毫秒而不是秒来衡量的.的确令人印象深刻.