具有以下数据帧:

import pandas as pd

cars = ["BMV", "Mercedes", "Audi"]
customer = ["Juan", "Pepe", "Luis"]
price = [100, 200, 300]
year = [2022, 2021, 2020]


df_raw = pd.DataFrame(list(zip(cars, customer, price, year)),\
                      columns=["cars", "customer", "price", 'year'])

我需要对分类变量carscustomer进行一次热编码,为此,我对这两列使用get_dummies方法.

numerical = ["price", "year"]
df_final = pd.concat([df_raw[numerical], pd.get_dummies(df_raw.cars),\
                      pd.get_dummies(df_raw.customer)], axis=1)

有没有一种方法可以动态生成这些假人,比如把它们放在一个列表中,然后用for循环遍历它们.在这种情况下,它可能看起来很简单,因为我只有2个属性,但如果我有30或60个属性,我会一个接一个地go 吗?

推荐答案

警察局.找些傻瓜

警察局.找些傻瓜(df_raw, columns=['cars', 'customer'])

   price  year  cars_Audi  cars_BMV  cars_Mercedes  customer_Juan  customer_Luis  customer_Pepe
0    100  2022          0         1              0              1              0              0
1    200  2021          0         0              1              0              0              1
2    300  2020          1         0              0              0              1              0

Python相关问答推荐

从收件箱中的列中删除html格式

从dict的列中分钟

大小为M的第N位_计数(或人口计数)的公式

如何在Raspberry Pi上检测USB并使用Python访问它?

如何根据一列的值有条件地 Select 前N组?

如何在图中标记平均点?

实现神经网络代码时的TypeError

通过ManyToMany字段与Through在Django Admin中过滤

从Windows Python脚本在WSL上运行Linux应用程序

如何排除prefecture_related中查询集为空的实例?

如何使用使用来自其他列的值的公式更新一个rabrame列?

在Docker容器(Alpine)上运行的Python应用程序中读取. accdb数据库

Polars表达式无法访问中间列创建表达式

在round函数中使用列值

正在try 让Python读取特定的CSV文件

在MongoDB文档中仅返回数组字段

如何导入与我试图从该目录之外运行的文件位于同一目录中的Python文件?

使用loc计算特定行的平均值,loc找不到行值

在PySpark中,可以从数组中获取任意数量的元素吗?

颂歌中的线性插值法(盖柯)