R 在 data.table 中设置键的目的是什么

发布于11月19日

我使用的是data.table，有许多功能需要我设置一个键(例如X[Y]).因此，我希望了解一个键是如何在我的数据表中正确设置键的.

我读到的一个消息来源是?setkey.

setkey()对data.table进行排序，并将其标记为已排序.排序的列是关键.键可以是任意顺序的任意列.列始终按升序排序.该表因引用而更改.除了一列大小的临时工作内存外，根本不复制任何内容.

我在这里的收获是，一个键可以"排序"数据.表，产生与order()非常相似的效果.然而，这并不能解释拥有 keys 的目的.

数据.表FAQ 3.2和3.3解释了:

3.2我没有大桌子上的 keys ，但分组仍然非常快.为什么？

数据表使用基数排序.这比其他方法快得多

3.3为什么按键中的列进行分组比按特殊列进行分组更快？

因 for each 组在RAM中是连续的，因此最小化了页面

从这里开始，我猜设置一个键在某种程度上允许R使用"基数排序"而不是其他算法，这就是为什么它更快的原因.

《10分钟快速入门指南》中还有一个关于关键点的指南.

keys

让我们从考虑数据开始.框架，特别是行名(或

keys 由一个或多个部件组成

唯一性不被强制执行，

电话簿有助于理解键是什么，但键与因子列相比似乎没有什么不同.此外，它没有解释为什么需要键(尤其是使用某些函数)以及如何 Select 要设置为键的列.而且，似乎在一个数据时代.以时间为列的表，将任何其他列设置为键可能也会弄乱时间列，这使得它更加混乱，因为我不知道是否允许将任何其他列设置为键.有人能告诉我吗？

## joins using < v1.9.6 setkey(X, a) # absolutely required setkey(Y, a) # not absolutely required as long as 'a' is the first column X[Y] ## joins using v1.9.6+ X[Y, on="a"] # or if the column names are x_a and y_a respectively X[Y, on=c("x_a" = "y_a")]

R 在 data.table 中设置键的目的是什么

推荐答案

What exactly does `setkey(DT, a, b)` do?

When is `setkey()` required?

R相关问答推荐

将收件箱变量传递给ggplot 2函数

使用sensemakr和fixest feols模型(R)

计算R中的威布尔分布的EDF

如何 bootstrap glm回归、估计95%置信区间并绘制它？

从gtsummary包中使用tBL_strata()和tBL_summary()时删除变量标签

如果行和大于值，则过滤

有没有一个R函数允许你从一个数字变量中提取一个数字，而不考虑它的位置(不仅仅是第一个或最后一个数字？

筛选出以特定顺序患病的个体

在df中保留原始变量和新变量

如何从像glm这样的模型中提取系数表的相关性？

派生程序包｜；无法检索'；return()'；的正文

如何从向量构造一系列双边公式

提高圣彼得堡模拟的速度

手动指定从相同数据创建的叠加图的 colored颜色

循环遍历多个变量，并将每个变量插入函数R

`-`是否也用于数据帧，有时使用引用调用？

网络抓取新闻标题和时间

整理曲线图、曲线图和点图

按镜像列值自定义行顺序

抽样变换-REXP与RWEIBUR

推荐答案

What exactly does setkey(DT, a, b) do?

When is setkey() required?

R相关问答推荐

What exactly does `setkey(DT, a, b)` do?

When is `setkey()` required?