我使用pandasnumpy个库来计算两个简单列表中的pearson correlation个.以下代码的输出是相关矩阵:

import numpy as np
import pandas as pd

x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])

x, y, z = pd.Series(x), pd.Series(y), pd.Series(z)

xyz = pd.DataFrame({'dist-values': x, 'uptime-values': y, 'speed-values': z})


matrix = xyz.corr(method="pearson")

在输出上使用.unstack().to_dict()函数后,我们可以获得以下格式的词典,并基于这post的答案,我们可以将输出转换为词典列表:

result = (matrix.unstack().rename_axis(['f1', 'f2'])
                          .reset_index(name='value').to_dict('records')
         )
# the output format after printing
[{'f1': 'dist-values', 'f2': 'dist-values', 'value': 1.0}, 
 {'f1': 'dist-values', 'f2': 'uptime-values', 'value': 0.7586402890911869}, 
 {'f1': 'dist-values', 'f2': 'speed-values', 'value': -0.9680724198337364}, 

 {'f1': 'uptime-values', 'f2': 'dist-values', 'value': 0.7586402890911869}, 
 {'f1': 'uptime-values', 'f2': 'uptime-values', 'value': 1.0}, 
 {'f1': 'uptime-values', 'f2': 'speed-values', 'value': -0.8340792243486527}, 

 {'f1': 'speed-values', 'f2': 'dist-values', 'value': -0.9680724198337364}, 
 {'f1': 'speed-values', 'f2': 'uptime-values', 'value': -0.8340792243486527}, 
 {'f1': 'speed-values', 'f2': 'speed-values', 'value': 1.0}]

但是我需要一个更复杂的格式,输出应该是这样的:

[ 
 {'name': 'dist-values', 'data': [{'x': 'dist-values', 'y': 1.0}, {'x': 'uptime-values', 'y': 0.7586402890911869}, {'x': 'speed-values', 'y': -0.9680724198337364}]}, 
 {'name': 'uptime-values', 'data': [{'x': 'dist-values', 'y': 0.7586402890911869}, {'x': 'uptime-values', 'y': 1.0}, {'x': 'speed-values', 'y': -0.8340792243486527}]}, 
 {'name': 'speed-values', 'data': [{'x': 'dist-values', 'y': -0.9680724198337364}, {'x': 'uptime-values', 'y': -0.8340792243486527}, {'x': 'speed-values', 'y': 1.0}]}, 
]

这段代码只有三个特性,相关矩阵只有9个元素,但在更大的矩阵中,我们如何实现这种转换?有没有有效的方法?谢谢

推荐答案

您可以try 列表理解以获得输出:

out = [
    {"name": i, "data": [{"x": c, "y": row[c]} for c in row.index]}
    for i, row in matrix.iterrows()
]
print(out)

打印:

[
    {
        "name": "dist-values",
        "data": [
            {"x": "dist-values", "y": 1.0},
            {"x": "uptime-values", "y": 0.7586402890911869},
            {"x": "speed-values", "y": -0.9680724198337364},
        ],
    },
    {
        "name": "uptime-values",
        "data": [
            {"x": "dist-values", "y": 0.7586402890911869},
            {"x": "uptime-values", "y": 1.0},
            {"x": "speed-values", "y": -0.8340792243486527},
        ],
    },
    {
        "name": "speed-values",
        "data": [
            {"x": "dist-values", "y": -0.9680724198337364},
            {"x": "uptime-values", "y": -0.8340792243486527},
            {"x": "speed-values", "y": 1.0},
        ],
    },
]

Python相关问答推荐

在Pandas DataFrame操作中用链接替换'方法的更有效方法

如何制作10,000年及以后的日期时间对象?

在Mac上安装ipython

avxspan与pandas period_range

无法使用DBFS File API路径附加到CSV In Datricks(OSError Errno 95操作不支持)

为什么抓取的HTML与浏览器判断的元素不同?

使用Python更新字典中的值

给定高度约束的旋转角解析求解

在输入行运行时停止代码

Python—转换日期:价目表到新行

基于另一列的GROUP-BY聚合将列添加到Polars LazyFrame

为什么调用函数的值和次数不同,递归在代码中是如何工作的?

在Python中从嵌套的for循环中获取插值

polars:有效的方法来应用函数过滤列的字符串

如何合并具有相同元素的 torch 矩阵的行?

需要帮助使用Python中的Google的People API更新联系人的多个字段'

python3中np. divide(x,y)和x/y有什么区别?'

Stats.ttest_ind:提取df值

如何在表单中添加管理员风格的输入(PDF)

如何计算Pandas 中具有特定条件的行之间的天差