Python Sklearn 管道转换特定列 ValueError：要解包的值太多(预期为 2)

发布于05月18日

我正在try 使用scaler、onhotcoder、多项式特征以及最终的线性回归模型制作管道

from sklearn.pipeline import Pipeline
pipeline = Pipeline([
                    ('scaler', StandardScaler(), num_cols),
                    ('polynom', PolynomialFeatures(3), num_cols), 
                    ('encoder', OneHotEncoder(), cat_cols),
                   ('linear_regression', LinearRegression() )
])

但当我安装管道时，我有一个ValueError:太多的值无法解包(预期为2个)

pipeline.fit(x_train,y_train)
pipeline.score(x_test, y_test)

推荐答案

如果我理解正确，您希望将管道的一些步骤应用于特定列.您必须使用ColumnTransformer，而不是在管道阶段的末尾添加列名(这是不正确的，并且会导致错误).Here你可以找到另一个类似的例子.

在你的情况下，你可以这样做:

import pandas as pd

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn.compose import ColumnTransformer

# Fake data.
train_data = pd.DataFrame({'n1': range(10), 'n2': range(10)})
train_data['c1'] = 0
train_data['c1'][5:] = 1
y_train = [0]*10
y_train[5:] = [1]*5

# Here I assumed you are using a DataFrame. If not, use integer indices instead of column names.
num_cols = ['n1', 'n2']
cat_cols = ['c1']


# Pipeline to transform the numerical features.
numerical_transformer = Pipeline([('scaler', StandardScaler()),
                                  ('polynom', PolynomialFeatures(3))
    
])

# Apply the numerical transformer only on the numerical columns.
# Spearately, apply the OneHotEncoder.
ct = ColumnTransformer([('num_transformer', numerical_transformer, num_cols),
                        ('encoder', OneHotEncoder(), cat_cols)])

# Main pipeline for fitting.
pipeline = Pipeline([
                   ('column_transformer', ct),
                   ('linear_regression', LinearRegression() )
])

pipeline.fit(train_data, y_train)

从示意图上看，管道的布局如下所示: