Python3.x 在 sklearn.decomposition.PCA 中，为什么 components_ 是负数

发布于06月30日

我正试图跟随Abdi&amp；Williams-Principal Component Analysis(2010)，并使用numpy.linalg.svd通过SVD构建主要组件.

当我用sklearn显示拟合PCA的components_属性时，它们的大小与我手动计算的完全相同，但some(不是全部)的符号相反.这是什么原因？

Update:我下面的(部分)答案包含一些额外的信息.

以以下数据为例:

from pandas_datareader.data import DataReader as dr
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import scale

# sample data - shape (20, 3), each column standardized to N~(0,1)
rates = scale(dr(['DGS5', 'DGS10', 'DGS30'], 'fred', 
           start='2017-01-01', end='2017-02-01').pct_change().dropna())

# with sklearn PCA:
pca = PCA().fit(rates)
print(pca.components_)
[[-0.58365629 -0.58614003 -0.56194768]
 [-0.43328092 -0.36048659  0.82602486]
 [-0.68674084  0.72559581 -0.04356302]]

# compare to the manual method via SVD:
u, s, Vh = np.linalg.svd(np.asmatrix(rates), full_matrices=False)
print(Vh)
[[ 0.58365629  0.58614003  0.56194768]
 [ 0.43328092  0.36048659 -0.82602486]
 [-0.68674084  0.72559581 -0.04356302]]

# odd: some, but not all signs reversed
print(np.isclose(Vh, -1 * pca.components_))
[[ True  True  True]
 [ True  True  True]
 [False False False]]

Python3.x 在 sklearn.decomposition.PCA 中，为什么 components_ 是负数

推荐答案

Python-3.x相关问答推荐

Pandas—在特定列上比较两行双框，并根据特定条件保留其中一行？

如果行在所有上级索引中都为0，如何删除下级索引行？

使用 iloc 或 loc 对多列进行过滤

如何将函数映射到所有命名元组的元素？

python 分代垃圾收集：get_count 没有报告正确的对象创建数？

无法使用 curve_fit() 在 python 中复制高斯函数的曲线拟合

在 pytest 中，如何测试 sys.exit('some error message')？

将两列合并为一列，将它们制成字典 - pandas - groupby

包含值超出范围的 ID 的新 DataFrame 列？

为什么 Sympy 不能解决我的非线性系统？ Python 解释器一直在执行，直到我终止进程

在python中循环处理时并行写入文件

在 sklearn.decomposition.PCA 中，为什么 components_ 是负数？

全局捕获快速 api 中的异常

tensorflow 中 numpy.newaxis 的替代方案是什么？

用 numpy nan 查找列表的最大值

使用 Tensorflow 2.0 在 MNIST 上实现自定义神经网络？

如何替换 Python pathlib.Path 中的子字符串？

我可以替换 Python 中对象的现有方法吗？

哪个更有效：Python 文档字符串还是类型提示？

在 Meta 中创建具有动态模型的通用序列化程序