使用 subset() 删除列和直接在 R 中的公式中删除变量有什么区别

发布于07月16日

我正在阅读这article篇文章，他们使用以下代码从数据中删除变量/列:

data(airquality)

# using subset()
summary(lm(Ozone ~., data = subset(airquality, select = -Solar.R)))

# direct manipulation
summary(lm(Ozone ~. -Solar.R, data = airquality))

我最初的 idea 是，两者通过从lm中删除变量Solar.R来做相同的事情，但它们似乎产生了不同的结果.这两种方法的区别是什么？为什么它们会产生不同的回归结果？

推荐答案

在您的公式中，.表示所有其他变量(Ozone除外).然后从.中减go Solar.R(即Ozone~.-Solar.R)，实际上就是这样:

lm(Ozone~Wind-Solar.R+Temp-Solar.R+Month-Solar.R + Day-Solar.R + Solar.R-Solar.R, data=airquality)

请注意，其结果与第二个模型相同.

因此，简而言之，这两种方法(您的第二个模型和我写出来的版本)都只是与第一个模型做相同的事情，但会导致更多的行丢失..因为数据集中有五行额外的数据.通过减go 太阳辐射，R缺失(但臭氧并没有缺失).R从一整天的风中，这五行下降，总数从37下降到42.

注意，如果是太阳能.R没有任何缺失值(假设我用非缺失太阳能的平均值填充缺失值.R值，如下所示，或任何值)，那么您的第一个和第二个模型将是相同的；明确地:

lm(Ozone~., data=select(airquality,-Solar.R))

Call:
lm(formula = Ozone ~ ., data = select(airquality, -Solar.R))

Coefficients:
(Intercept)         Wind         Temp        Month          Day  
   -70.1051      -3.0516       2.0984      -3.5209       0.2747

与:

lm(Ozone~.-Solar.R, data=
     airquality %>% 
     mutate(Solar.R = if_else(is.na(Solar.R), mean(Solar.R, na.rm=T), as.double(Solar.R)))
   )

Call:
lm(formula = Ozone ~ . - Solar.R, data = airquality %>% mutate(Solar.R = if_else(is.na(Solar.R), 
    mean(Solar.R, na.rm = T), as.double(Solar.R))))

Coefficients:
(Intercept)         Wind         Temp        Month          Day  
   -70.1051      -3.0516       2.0984      -3.5209       0.2747