Python 如何创建虚拟列进行预测

发布于07月26日

我已经完成了scikit-learn模型的训练，并将其保存为pickle文件.现在我想加载模型并运行预测，但我不知道如何预处理输入数据.

dataset = {
    'airline': ['SpiceJet', 'Indigo', 'Air_India']
}
df = pd.DataFrame.from_dict(dataset)

airline列有3条航线，用于创建具有以下代码的虚拟列:

def preprocessing(df):
    dummies = pd.get_dummies(df["airline"], drop_first=True)
    return dummies

用于训练的数据集将具有如下模式:

| airline_SpiceJet | airline_Indigo | airline_Air_India |

我的问题是关于下面的输入，如何将输入映射到相应的列？

input = {
    'airline': ['SpiceJet']
}

数据集的预期输出:

| airline_SpiceJet | airline_Indigo | airline_Air_India |
| ---------------- | -------------- | ----------------- |
|                1 |              0 |                 0 |

推荐答案

我认为pandas get\u dummies()方法的问题在于，它根据输入数据定义了虚拟对象的列，如本期Dummy variables when not all categories are present中所述.

根据那里的答案，您可以调整代码以获得如下假人:

dataset = {
    'airline': ['SpiceJet', 'Indigo', 'Air_India']
}

input = {
    'airline': ['SpiceJet']
}

possible_categories = dataset["airline"]


dummy_input = pd.Series(input["airline"])
display(pd.get_dummies(dummy_input.astype(pd.CategoricalDtype(categories=possible_categories))))

输出:

SpiceJet	Indigo	Air_India
1	0	0

有了更多的输入数据，它可能看起来像这样:

input_2 = {
    'airline': ['SpiceJet','Indigo','SpiceJet','Indigo','Air_India']
}

dummy_input_2 = pd.Series(input_2["airline"])
display(pd.get_dummies(dummy_input_2.astype(pd.CategoricalDtype(categories=possible_categories))))