R pivot_longer 带有存根名称和最后一个下划线

发布于05月01日

我有以下样式化的宽数据框df_wide，我想在R年reshape 长数据框:

df_wide = data.frame(country = c("A", "B"),
                gdp_1999 = c(100, 200),
                gdp_2000 = c(400,500),
                poverty_rate_1999 = c(35,40),
                poverty_rate_2000 = c(10,15),
                inequality_score_gini_1999 = c(20,25),
                inequality_score_gini_2000 = c(40,45)
                )
df_wide
  country gdp_1999 gdp_2000 poverty_rate_1999 poverty_rate_2000 inequality_score_gini_1999 inequality_score_gini_2000
1       A      100      400                35                10                         20                         40
2       B      200      500                40                15                         25                         45

我想使用pivot_longer按国家/地区/年份对数据进行长时间reshape ，使数据框架如下所示:

df_long = data.frame(country = c("A","A","B","B"),
                     year = c(1999,1999,2000,2000),
                     gdp = c(100,400,200,500),
                     poverty_rate = c(35,10,40,15),
                     inequality_score_gini = c(20,40,25,45))
df_long
country year gdp poverty_rate inequality_score_gini
1       A 1999 100           35                    20
2       A 1999 400           10                    40
3       B 2000 200           40                    25
4       B 2000 500           15                    45

用pivot_longer我该怎么做？请注意，我特别挑选了带有不同下划线数的变量，因为相关的past posts不能为我的数据集提供足够的指导.我能做的最好是使用常规reshape，一次reshape 一个存根图案，例如:

library(reshape)
long_data_gdp <- reshape(df_wide, 
                     varying = c("gdp_1999", "gdp_2000"),
                     idvar = "country",
                     direction = "long",
                     sep = "_")

如果正确的答案能提供两个子答案，我将不胜感激:(1)答案为starts_with()，因此所有事情都可以通过存根名称而不是names_pattern来完成，因为当有多个下划线分隔符(即poverty_rate和inequality_gini_score不起作用)时，我try 在上面使用reshape失败；(2) 答案是names_pattern，但这解释了如何以非regex专家易于理解的方式将最后一个下划线作为分隔符.

library(tidyverse) df_wide %>% pivot_longer(cols = !country, names_to = c(".value", "year"), names_pattern = "^(.*)_([0-9]{4})$") #> # A tibble: 4 × 5 #> country year gdp poverty_rate inequality_score_gini #> <chr> <chr> <dbl> <dbl> <dbl> #> 1 A 1999 100 35 20 #> 2 A 2000 400 10 40 #> 3 B 1999 200 40 25 #> 4 B 2000 500 15 45

df_wide <- tribble(~country, ~gdp_1999, ~gdp_2000, ~poverty_rate_1999, ~poverty_rate_2000, ~inequality_score_gini_1999, ~inequality_score_gini_2000, "A", 100, 400, 35, 10, 20, 40, "B", 200, 500, 40, 15, 25, 45)

R pivot_longer 带有存根名称和最后一个下划线

推荐答案

R相关问答推荐

如何删除R中除某些特定名称外的所有字符串？

gt()从gt为相同内容的单元格 colored颜色不同？

手动打印线型gplot

用相同方法得到不同函数的ROC最优截断值

如何在emmeans中计算连续变量的对比度

筛选出以特定顺序患病的个体

标识R中多个列中缺少的唯一值

Ggplot2中的重复注记

如何使用列表中多个列表中的第一条记录创建数据框

在RStudio中堆叠条形图和折线图

如何将一些单元格的内容随机 Select 到一个数据框中？

在R中，如何从一系列具有索引名的变量快速创建数据帧？

如何使用FormC使简单算术运算得到的数字是正确的？

向R中的数据帧添加一列，该列统计另一列中每个唯一值的二进制观测值的数量

使用同一行中的前一个值填充R矩阵中的缺失值

将某个阈值以下的列中的值分类到不同的列中，否则保持该列的原样

把代码写成dplyr中的group_by/摘要更简洁吗？

如何使用list_rind在列表中保留已命名但不包含第0行的记录？

对数据帧中的列进行子集设置以通过迭代创建新的数据帧

如何在给定的环境中找到函数的函数参数？