Python ScikitLain和Scipy在删除特征列后产生发散的余弦距离

发布于01月17日

当我们使用具有N个观测值和M个特征的N x M矩阵时，常见的任务是计算N个观测值之间的成对距离，从而得到N x N距离矩阵.流行的Python库scipy和scikit-learn都提供了执行此任务的方法，我们希望它们为两者都已实现的指标产生相同的结果.以下函数测试名为arr的给定矩阵的等价性:

import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial.distance import pdist, squareform

def test_equivalence(arr: np.array, metric="cosine") -> bool:
    scipy_result = squareform(pdist(arr, metric=metric))
    sklearn_result = pairwise_distances(arr, metric=metric)
    return np.isclose(scipy_result, sklearn_result).all()

现在，我碰巧有这个1219 x 37652数组arr，其中每行和为1(标准化)，test_equivalence(arr)产生True，不出所料.也就是说，这两个库返回的N x N个余弦距离矩阵可以互换使用.然而，当我剔除最后i列时，test_equivalence(arr[:, -i])得到True only up to a certain value(恰好是i = 25676).从这个值开始，等价性就不成立了.

我完全不知道为什么会这样，有什么指导吗？如果有人能告诉我怎么做，我可能会将数组分享为.npz个文件进行调试，但也许有人已经有了预感.当然，最终的问题是，我应该使用哪种实现？

我还用这些其他指标测试了失败的arr[:, -25675]个指标:["braycurtis", "canberra", "chebyshev", "cityblock", "correlation", "euclidean", "hamming", "matching", "minkowski", "rogerstanimoto", "russellrao", "seuclidean", "sokalmichener", "sokalsneath", "sqeuclidean", "yule"]个指标中，除"相关性"外，所有指标都是等同的.

Edit:未通过等价性测试的简化(1219 x 96)数组可以从https://drive.switch.ch/index.php/s/B19JbTL5aZ4pY3f/download下载并通过np.load("tf_matrix.npz")["arr_0"]加载.

# Modified version of test_equivalence() that returns boolean matrix of disagreements def test_equivalence(arr: np.array, metric="cosine"): scipy_result = squareform(pdist(arr, metric=metric)) sklearn_result = pairwise_distances(arr, metric=metric) return np.isclose(scipy_result, sklearn_result) plt.imshow(test_equivalence(arr))

>>> print(arr[1168]) [1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23 1.20000016e-23]

Python ScikitLain和Scipy在删除特征列后产生发散的余弦距离

推荐答案

Python相关问答推荐

从今天起的future 12个月内使用Python迭代

用gekko解决的ADE方程系统突然不再工作，错误消息异常：@错误：模型文件未找到.& &

仅从风格中获取 colored颜色循环

Pandas 第二小值有条件

DataFrame groupby函数从列返回数组而不是值

Gekko：Spring-Mass系统的参数识别

. str.替换pandas.series的方法未按预期工作

删除所有列值，但判断是否存在任何二元组

无法定位元素错误404

如何更改分组条形图中条形图的 colored颜色？

Streamlit应用程序中的Plotly条形图中未正确显示Y轴刻度

如何并行化/加速并行numba代码？

如何在FastAPI中为我上传的json文件提供索引ID？

使用Python和文件进行模糊输出

如果初始groupby找不到满足掩码条件的第一行，我如何更改groupby列，以找到它？

matplotlib + python foor loop

Discord.py -

Python类型提示：对于一个可以迭代的变量，我应该使用什么？

Python日志(log)库如何有效地获取lineno和funcName？

Pandas：计数器的滚动和，复位