有两个Pandas 数据帧.我使用MinMaxScaler对第一个数据帧进行标准化,目的是训练神经网络.对于测试数据集,我需要执行相同的操作,但如何根据第一个数据帧的最小和最大值扩展数据帧?
由于测试数据不应影响训练,不能合并两个数据帧,然后重新zoom 和拆分
数据集有很多列
示例:
第一个数据帧:

|     | colA |
| --- |---- |
| 1   | 3   |
| 2   | 10  |
| 3   | 4   |
| 4   | 0   |

第二个数据帧:

|     | colA |
| --- |--- |
| 1   | 2  |
| 2   | 5  |

预期扩展:

|     | colA |
| --- | --- |
| 1   | 0.2 |
| 2   | 0.5 |

推荐答案

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

train_df = pd.DataFrame({'colA': [3, 10, 4, 0]})
test_df = pd.DataFrame({'colA': [2, 5]})

scaler = MinMaxScaler()
scaler.fit(train_df)

train_df = scaler.transform(train_df)
test_df = scaler.transform(test_df)

Python相关问答推荐

关于两个表达式的区别

为什么我的sundaram筛这么低效

合并相似列表

Python:从目录内的文件导入目录

操作布尔值的Series时出现索引问题

普洛特利express 发布的人口普查数据失败

将数据从一个单元格保存到Jupyter笔记本中的下一个单元格

大Pandas 中的群体交叉融合

如何在Polars中处理用户自定义函数的多行结果?

将Pandas DataFrame中的列名的长文本打断/换行为_STRING输出?

将索引表转换为Numy数组

Pandas 数据框自定义排序功能

突出显示两幅图像之间的变化或差异区域

将COLUMN BY GROUP中的值连接为列表,并将其赋值给PANAS数据框中的变量

抽象工厂模式与委托者模式组合时出现递归错误

在Python中用两个图像制作一个图像

改进积分方程式、Worker关键字非函数拟合的scipy.Integrate.quad_vec性能

在错误处理期间使用字典理解中的变量是否安全?

如何生成一个区间的均匀分布的子区间?

我很难用Python Pandas打开旧格式的XLS文件