如何在Python中按组应用简单的线性回归

发布于05月07日

目前我的代码是这样设置的:

def lregression(data, X, y):
    X = df['sales'].values.reshape(-1, 1)
    y = df['target']
    model = LinearRegression()
    result = model.fit(X, y)
    return model.score(X, y)

然后，我试图针对每个品牌应用这个模型:

df.groupby('brand').apply(lregression, X, y)

但结果只是应用于完整的数据集:

Brand A    0.734
Brand B    0.734
Brand C    0.734

我是不是错过了什么？我希望模型 for each 组单独运行，但显然我将模型应用于完整数据集，然后返回每个组的总得分. 谢谢！

DATAFRAME

拥有一个最小的可重复示例总是很好，我将在这里提供它:

np.random.seed(42)
data = {
    'brand': np.random.choice(['Brand A', 'Brand B', 'Brand C'], size=300),
    'sales': np.random.randint(100, 1000, size=300),
    'target': np.random.randint(100, 1000, size=300)
}

df = pd.DataFrame(data)

FUNCTION

对我来说，不清楚您是要返回单个回归的score(即R2)还是coef，在这两种情况下，函数只会略有变化:

评分

def lregression(group):
    X = group['sales'].values.reshape(-1, 1)
    y = group['target']
    model = LinearRegression()
    result = model.fit(X, y)
    return result.score(X, y)

系数

def lregression(group):
    X = group['sales'].values.reshape(-1, 1)
    y = group['target']
    model = LinearRegression()
    result = model.fit(X, y)
    return result.coef_

然后是最后一步(coef_个场景):

>>> df.groupby('brand').apply(lregression)
 
brand
Brand A     [0.20322970187699263]
Brand B     [0.09134770152569331]
Brand C    [0.043343302335992005]
dtype: object

其效果如预期