Python 如何加速 numpy.unique 并提供计数和重复行索引

发布于07月02日

我试图在numpy数组中找到重复的行.以下代码复制了我的数组的 struct ，该数组每行有n行、m列和nz个非零条目:

import numpy as np
import random
import datetime


def create_mat(n, m, nz):
    sample_mat = np.zeros((n, m), dtype='uint8')
    random.seed(42)
    for row in range(0, n):
        counter = 0
        while counter < nz:
            random_col = random.randrange(0, m-1, 1)
            if sample_mat[row, random_col] == 0:
                sample_mat[row, random_col] = 1
                counter += 1
    test = np.all(np.sum(sample_mat, axis=1) == nz)
    print(f'All rows have {nz} elements: {test}')
    return sample_mat

我试图优化的代码如下:

if __name__ == '__main__':
    threshold = 2
    mat = create_mat(1800000, 108, 8)

    print(f'Time: {datetime.datetime.now()}')
    duplicate_rows, _, duplicate_counts = np.unique(mat, axis=0, return_counts=True, return_index=True)
    duplicate_indices = [int(x) for x in np.argwhere(duplicate_counts >= threshold)]
    print(f'Time: {datetime.datetime.now()}')

    print(f'Duplicate rows: {len(duplicate_rows)} Sample inds: {duplicate_indices[0:5]} Sample counts: {duplicate_counts[0:5]}')
    print(f'Sample rows:')
    print(duplicate_rows[0:5])

我的输出如下:

All rows have 8 elements: True
Time: 2022-06-29 12:08:07.320834
Time: 2022-06-29 12:08:23.281633
Duplicate rows: 1799994 Sample inds: [508991, 553136, 930379, 1128637, 1290356] Sample counts: [1 1 1 1 1]
Sample rows:
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 1 1 0 0 0 1 0 0 0 0 0 0 1 0 1 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 1 0 1 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0]]

我考虑过使用NUBA，但挑战是它不使用轴参数.类似地，转换为列表和利用集合也是一种 Select ，但随后通过循环执行重复计数似乎"不符合逻辑".

考虑到我需要多次运行此代码(因为我正在修改numpy数组，然后需要重新搜索重复项)，时间至关重要.我也try 对这一步使用多处理，但np.unique似乎被阻塞了(即，即使我try 运行多个版本的unique，我最终也会限制一个线程以6%的CPU容量运行，而其他线程则处于空闲状态).

Python 如何加速 numpy.unique 并提供计数和重复行索引

推荐答案

步骤1:钻头包装

Step 2: `np.unique` optimizations

Step 3: GPU-based `np.unique`

后果

Python相关问答推荐

Pandas 都是()，但有一个门槛

avxspan与pandas period_range

我对我应该做什么以及我如何做感到困惑'

迭代嵌套字典的值

如何在图中标记平均点？

try 检索blob名称列表时出现错误填充错误""

在极中解析带有数字和SI前缀的字符串

跳过嵌套JSON中的级别并转换为Pandas Rame

干燥化与列姆化的比较

为什么在FastAPI中创建与数据库的连接时需要使用生成器？

Odoo16：模板中使用的docs变量在哪里定义？

将一个双框爆炸到另一个双框的范围内

多个矩阵的张量积

来自Airflow Connection的额外参数

将字节序列解码为Unicode字符串

TypeError：'；Locator'；对象无法在PlayWriter中使用.first()调用

我怎样才能让深度测试在OpenGL中使用Python和PyGame呢？

Pandas：使列中的列表大小与另一列中的列表大小相同

对当前的鼹鼠进行编码，并且我的按键获得了注册

在不降低分辨率的情况下绘制一组数据点的最外轮廓

推荐答案

步骤1:钻头包装

Step 2: np.unique optimizations

Step 3: GPU-based np.unique

后果

Python相关问答推荐

Step 2: `np.unique` optimizations

Step 3: GPU-based `np.unique`