我有一些功能DataFrame(比方说)如下所示:
Symptom A | Symptom B |
---|---|
Itching | Rash |
Rash | Itching |
当我在此数据帧上运行GET_DUMMIES函数时,它将创建四个名为'Symptom_A_Itching', 'Symptom_A_Rash', 'Symptom_B_Rash', 'Symptom_B_Itching'
的列.我不想在使用此函数时将这两个值分开处理.
有没有办法对此数据帧执行一次热编码,其中这两列的值不会被单独处理.
基本上,我希望得到一个列为'Symptom_Itching', 'Symptom_Rash'
的DataFrame.
我try 在GET_DUMMIES函数中使用列和前缀参数,但没有产生任何结果.我还try 将所有症状列名称设置为'Symptom'
,而不是'Symptom_A', 'Symptom_B'
,但也不起作用.
这是我的代码:
data_frame: DataFrame = read_csv('dataset.csv')
features: DataFrame = data_frame.iloc[:, 1:]
features.fillna('')
x: DataFrame = get_dummies(features)