我正在执行一些手动数据清理,我想加快处理速度.我有如下数据帧:
ID V1 V2 V3 V4 V5 Group Categorical_1 Categorical_2 Categorical_3
A 1 2 2 2 2 B21 [Text] [Text] [Text]
B 2 3 5 8 3 B24 [Text] [Text] [Text]
C 3 4 6 1 1 A28 [Text] [Text] [Text]
D 4 1 5 7 8 A61 [Text] [Text] [Text]
E 5 2 8 3 2 A62 [Text] [Text] [Text]
F 6 3 9 5 9 C91 [Text] [Text] [Text]
G 7 4 1 4 6 D90 [Text] [Text] [Text]
假设我想要为ID H和I.H创建新行.H的组应该是B22.我希望它的所有变量都是从B2开始的组中其他单位的变量的平均值.ID i,应该是A64组,它的变量应该是从A6开始的组中所有单位的平均值.分类变量是我不希望复制或平均到新行ID的文本.因此,输出将如下所示:
ID V1 V2 V3 V4 V5 Group Categorical_1 Categorical_2 Categorical_3
A 1 2 2 2 2 B21 [Text] [Text] [Text]
B 2 3 5 8 3 B24 [Text] [Text] [Text]
C 3 4 6 1 1 A28 [Text] [Text] [Text]
D 4 1 5 7 8 A61 [Text] [Text] [Text]
E 5 2 8 3 2 A62 [Text] [Text] [Text]
F 6 3 9 5 9 C91 [Text] [Text] [Text]
G 7 4 1 4 6 D90 [Text] [Text] [Text]
H 1.5 2.5 3.5 5 2.5 B22
I 4.5 1.5 6.5 5 5 A64
对于具有不同ID的许多不同观察,我需要手动重复此操作,那么如何设置代码,使其在重复此过程时易于修改?最好是在dplyr
年内做到这一点,但欢迎任何建议.