我使用以下代码将Excel文件导入Python:

import pandas as pd

file_name = (file.direction)
ExcelData = pd.read_excel(file_name, sheet_name = "File Name", header = 0)
Data = ExcelData.head()

之后我做:

df = pd.DataFrame(Data)

我的问题是我想从sklearn.linear_mode类创建线性回归模型,为此我需要定义X和Y列.问题是:按照我导入数据的方式,如何引用x和y变量中的列?现在我正在做以下事情:

X = df[["ColumnName1", "ColumnName2", "ColumnName3"]]
y = df["ColumnName4"]

如果有人知道如何将列放入x和y变量中,我将非常感激:)

推荐答案

只需使用xlsx文件中给出的标头名称即可引用列变量.

你可以试试这样的东西:

import pandas as pd
from sklearn.linear_model import LinearRegression

df = pd.read_excel(r'You file name.xlsx')
X = df.drop(columns = ['the column name for the output'])
Y = df['the column name for the output']
model = LinearRegression()
model.fit(X, Y)
model.predict(<Your X inputs>)

如果您有任何分类变量,我建议在将数据发送到线性回归模型之前使用from sklearn.preprocessing import OneHotEncoder对数据进行热编码.这是因为所有数据都需要采用数字格式.希望这有帮助

Python相关问答推荐

通过交换 node 对链接列表进行 Select 排序

如何使用矩阵在sklearn中同时对每个列执行matthews_corrcoef?

Python 3.12中的通用[T]类方法隐式类型检索

试图找到Python方法来部分填充numpy数组

Pytest两个具有无限循环和await命令的Deliverc函数

Pandas - groupby字符串字段并按时间范围 Select

优化pytorch函数以消除for循环

对所有子图应用相同的轴格式

如何将一个动态分配的C数组转换为Numpy数组,并在C扩展模块中返回给Python

如何从pandas的rame类继承并使用filepath实例化

Scrapy和Great Expectations(great_expectations)—不合作

Pandas GroupBy可以分成两个盒子吗?

如何从需要点击/切换的网页中提取表格?

在极中解析带有数字和SI前缀的字符串

OpenGL仅渲染第二个三角形,第一个三角形不可见

使用类型提示进行类型转换

numpy数组和数组标量之间的不同行为

如何设置nan值为numpy数组多条件

为什么我的scipy.optimize.minimize(method=";newton-cg";)函数停留在局部最大值上?

使用美汤对维基百科表格进行网络刮擦未返回任何内容