R 向内存不足的数据帧添加唯一行

发布于01月13日

我在一个数据帧中有my_data_base个初始数据，其中第一列是name，后续列是日志(log).为简单起见，我用5个逻辑列做了一个小例子，在实际数据中大约有my_data_base0列

set.seed(1)
make_dat <- function(nrow=1, ncol=5) {
  cbind.data.frame(name=stringi::stri_rand_strings(n=nrow, length=3), 
                   matrix(data=sample(c(T, F), nrow*ncol, T), ncol=ncol))
}
my_data_base <- make_dat(nrow=10, ncol=5)

my_data_base

   name     1     2     3     4     5
1   GNZ FALSE FALSE FALSE  TRUE FALSE
2   uCt FALSE FALSE  TRUE FALSE FALSE
3   wed  TRUE  TRUE FALSE FALSE  TRUE
4   3CA FALSE FALSE FALSE FALSE  TRUE
5   gNl  TRUE FALSE  TRUE FALSE  TRUE
6   Uiz  TRUE FALSE  TRUE FALSE FALSE
7   Nmv FALSE FALSE FALSE FALSE FALSE
8   De7  TRUE FALSE FALSE  TRUE  TRUE
9   GN0 FALSE  TRUE FALSE FALSE  TRUE
10  NrL FALSE  TRUE  TRUE FALSE FALSE

此外，我还有作为新行传入的新数据

new_data <- make_dat(nrow=1, ncol=5)

 new_data
  name    1    2     3    4     5
1  QiO TRUE TRUE FALSE TRUE FALSE

我的算法的本质非常简单. 当new_data到达时，我判断new_data相对于my_data_base中的行是否是唯一的.如果是，则添加新的行，如果不是，则一切保持原样.

for (i in 1:100) {
  new_data <- make_dat(nrow=1, ncol=5)
  is_unique_new_data <- all(apply(my_data_base[, -1], 1, \(row) 
                                  all(new_data[, -1] == row)) == FALSE)
  if (is_unique_new_data) my_data_base <- rbind.data.frame(my_data_base, new_data)
}

问题是，my_data_base的大小增长非常快，我希望找到一种方法来保持和增加my_data_base的内存，因为我需要判断新行的唯一性.

如何才能做到这一点呢？或许可以使用arrow或polars或database或R的标准功能或其他功能来实现这一点？

R 向内存不足的数据帧添加唯一行

推荐答案

CSV黑客攻击

"适当的"数据库

R相关问答推荐

给定R中另一行中的值，如何插补缺失值

使用lapply的重新定位功能

更改Heatmap Annotation对象的名称

保存包含循环和ifelse的函数的输出

如何得到R中唯一的组合群？

在R中无法读入具有Readxl和lApply的数据集

对于变量的每个值，仅 Select 包含列表中所有值的值.R

如果可能，将数字列转换为整数，否则保留为数字

矩阵的堆叠条形图，条形图上有数字作为标签

在R gggplot2中是否有一种方法将绘图轴转换成连续的 colored颜色尺度？

如何对2个列表元素的所有组合进行操作？

使用带有OR条件的grepl过滤字符串

按多列统计频次

将项粘贴到向量中，并将它们分组为x的倍数，用空格分隔

如何在R中改变fviz_pca_biplot中圆的边界线的 colored颜色？

远离理论值的伽马密度曲线下面积的近似

用多边形替换地块点

将美学添加到ggploy中的文本标签

如何将字符类对象中的数据转换为R中的字符串

如何从矩阵绘制环弦图