Python 将数据框架与导入的Excel文件一起使用

发布于04月17日

我使用以下代码将Excel文件导入Python:

import pandas as pd

file_name = (file.direction)
ExcelData = pd.read_excel(file_name, sheet_name = "File Name", header = 0)
Data = ExcelData.head()

之后我做:

df = pd.DataFrame(Data)

我的问题是我想从sklearn.linear_mode类创建线性回归模型，为此我需要定义X和Y列.问题是:按照我导入数据的方式，如何引用x和y变量中的列？现在我正在做以下事情:

X = df[["ColumnName1", "ColumnName2", "ColumnName3"]]
y = df["ColumnName4"]

如果有人知道如何将列放入x和y变量中，我将非常感激:)

推荐答案

只需使用xlsx文件中给出的标头名称即可引用列变量.

你可以试试这样的东西:

import pandas as pd
from sklearn.linear_model import LinearRegression

df = pd.read_excel(r'You file name.xlsx')
X = df.drop(columns = ['the column name for the output'])
Y = df['the column name for the output']
model = LinearRegression()
model.fit(X, Y)
model.predict(<Your X inputs>)

如果您有任何分类变量，我建议在将数据发送到线性回归模型之前使用from sklearn.preprocessing import OneHotEncoder对数据进行热编码.这是因为所有数据都需要采用数字格式.希望这有帮助