从数据框列 R 中删除 NA

发布于09月22日

我有一个名为Resultaat的数据帧

Cluster Number
W63     1020 NA NA NA 1100
W50     1020 NA 1240 NA NA

我想go 掉所有的NA值，保留这些数字.这些列被定义为字符.

预期yields

Cluster Number
W63     1020 1100
W50     1020 1240

我试过像这样的事情 gsub("^NA(?:\\s+NA)*\\b\\s*|\\s*\\bNA(?:\\s+NA)*$", "", Resultaat$Number)个 &amp；Resultaat <- Resultaat[!is.na(Resultaat)]，但都不起作用

推荐答案

这里有一个选项--用read.table和unite读取列‘number’所有列，不包括NA个元素和na.rm = TRUE个元素

library(tidyr)
library(dplyr)
read.table(text = Resultaat$Number, header = FALSE, fill = TRUE) %>% 
  unite(Number, everything(), na.rm = TRUE, sep = " ") %>% 
  bind_cols(Resultaat[1], .)

-输出

Cluster    Number
1     W63 1020 1100
2     W50 1020 1240

关于gsub，它可以是

gsub("\\s+NA|NA\\s+|NA$|^NA", "", Resultaat$Number)
[1] "1020 1100" "1020 1240"

或者也可以使用tidvyerse种方法作为

library(dplyr)
library(tidyr)
library(stringr)
Resultaat %>%
   separate_rows(Number) %>% 
   na_if("NA") %>%
   drop_na() %>%
   group_by(Cluster) %>%
   summarise(Number = str_c(Number, collapse = " "))

-输出

# A tibble: 2 × 2
  Cluster Number   
  <chr>   <chr>    
1 W50     1020 1240
2 W63     1020 1100

数据

Resultaat <- structure(list(Cluster = c("W63", "W50"), 
Number = c("1020 NA NA NA 1100", 
"1020 NA 1240 NA NA")), class = "数据.frame", row.names = c(NA, 
-2L))