我感兴趣的是go 识别同时具有时间固定值和时变值的敏感数据集.我想(a)根据社会保险号对所有 case 进行分组,(b)为这些 case 分配一个唯一的ID,然后(c)删除社会保险号.

下面是一个示例数据集:

personal_id    gender  temperature
111-11-1111      M        99.6
999-999-999      F        98.2
111-11-1111      M        97.8
999-999-999      F        98.3
888-88-8888      F        99.0
111-11-1111      M        98.9

任何解决方案都将不胜感激.

推荐答案

dplyr有一个group_indices函数,用于创建唯一的组ID

library(dplyr)
data <- data.frame(personal_id = c("111-111-111", "999-999-999", "222-222-222", "111-111-111"),
                       gender = c("M", "F", "M", "M"),
                       temperature = c(99.6, 98.2, 97.8, 95.5))

data$group_id <- data %>% group_indices(personal_id) 
data <- data %>% select(-personal_id)

data
  gender temperature group_id
1      M        99.6        1
2      F        98.2        3
3      M        97.8        2
4      M        95.5        1

或在同一管道内(https://github.com/tidyverse/dplyr/issues/2160):

data %>% 
    mutate(group_id = group_indices(., personal_id))

R相关问答推荐

确定邻国

如何生成包含可能条目列表而不是计数的表?

在R中,将一个函数作为输入传递给另一个函数时进行参数判断

如何将多个数据帧附加到R中的多个相应的CSV文件中?

是否有任何解决方案可以优化VSCode中RScript的图形绘制?

用单个表达匹配多个替代模式

如何根据包含相同值的某些列获取总额

创建重复删除的唯一数据集组合列表

在ggplot的注释表格中突出显示最大值

具有多个依赖变量/LHS的逻辑模型

如何对数据集进行逆向工程?

将嵌套列表子集化为嵌套列表

R函数‘paste`正在颠倒其参数的顺序

根据文本字符串中的值粘贴新列

将文件保存到新文件夹时,切换r设置以不必创建目录

使用Facet_WRAP时更改框图中线的 colored颜色

计算满足R中条件的连续列

更改STAT_VALLES/STAT_PEAKS中的箭头线宽/大小

如何使用grepl()在数据帧列表中 Select 特定字符串?

排序R矩阵的行和列