C++ 并行将 64 位整数中的压缩 8 位整数减 1，没有硬件 SIMD 的 SWAR

发布于01月08日

如果我有一个64位整数，我将其解释为一个包含8个元素的压缩8位整数array.在处理溢出时，我需要从每个压缩整数中减go 常数1，而一个元素的结果不会影响另一个元素的结果.

我现在有这段代码，它可以工作，但我需要一个解决方案，并行地对每个压缩的8位整数进行减法，并且不进行内存访问.在x86上，我可以使用类似于psubb的SIMD指令来并行减go 压缩的8位整数，但我编写的平台不支持SIMD指令.(本例中为RISC-V).

所以我try 用SWAR (SIMD within a register)来手动取消uint64_t字节之间的传输，做一些与之等效的事情:

uint64_t sub(uint64_t arg) {
    uint8_t* packed = (uint8_t*) &arg;

    for (size_t i = 0; i < sizeof(uint64_t); ++i) {
        packed[i] -= 1;
    }

    return arg;
}

我想你可以用位运算符来实现，但我不确定.我正在寻找一种不使用SIMD指令的解决方案.我在C或C++中寻找一种非常便携的解决方案，或者只是理论上的，这样我就可以实现自己的解决方案.

in: 0000000000000000 out: ffffffffffffffff in: f200000015000013 out: f1ffffff14ffff12 in: 0000000000000100 out: ffffffffffff00ff in: 808080807f7f7f7f out: 7f7f7f7f7e7e7e7e in: 0101010101010101 out: 0000000000000000

性能详细信息

这里是用于函数单次调用的x86_64程序集.为了获得更好的性能，应该将其内联，希望这些常量可以在寄存器中尽可能长的存在.在一个紧循环中，常数位于寄存器中，实际减量需要五条指令:或+不+和+加+异或优化后.我看不到比编译器优化更好的替代方案.

uint64t[rax] decEach(rcx): movabs rcx, -9187201950435737472 mov rdx, rdi or rdx, rcx movabs rax, -72340172838076673 add rax, rdx and rdi, rcx xor rdi, rcx xor rax, rdi ret

通过对以下代码段的一些IACA测试:

// Repeat the SWAR dec in a loop as a microbenchmark uint64_t perftest(uint64_t dummyArg){ uint64_t dummyCounter = 0; uint64_t i = 0x74656a6d27080100U; // another dummy value. while(i ^ dummyArg) { IACA_START uint64_t naive = i - U64MASK; i = naive + ((i ^ naive ^ U64MASK) & U64MASK); dummyCounter++; } IACA_END return dummyCounter; }

我们可以证明，在Skylake机器上，每次迭代执行减量、异或和比较+跳转的周期不到5个:

Throughput Analysis Report -------------------------- Block Throughput: 4.96 Cycles Throughput Bottleneck: Backend Loop Count: 26 Port Binding In Cycles Per Iteration: -------------------------------------------------------------------------------------------------- | Port | 0 - DV | 1 | 2 - D | 3 - D | 4 | 5 | 6 | 7 | -------------------------------------------------------------------------------------------------- | Cycles | 1.5 0.0 | 1.5 | 0.0 0.0 | 0.0 0.0 | 0.0 | 1.5 | 1.5 | 0.0 | --------------------------------------------------------------------------------------------------

(当然，在x86-64上，您只需将or movq加载到XMM reg for paddb中，因此了解它如何编译类似ISA的RISC-V可能更有趣.)

C++ 并行将 64 位整数中的压缩 8 位整数减 1，没有硬件 SIMD 的 SWAR

推荐答案

操作可以写成:

测试 case :

性能详细信息

C++相关问答推荐

如何在C中只使用一个带双方括号([i][j])访问语法的malloc来分配动态大小的2d数组？

获取每个循环迭代结束时的当前时间

I2C外设在单次交易后出现故障

cairo 剪辑区域是否存在多个矩形？

变量的作用域是否在C中的循环未定义行为或实现定义行为的参数中初始化？

使用%f格式说明符打印整数值

我正在try 将QSORT算法实现为C++中的泛型函数

通过对一个大的Malloc内存进行切片来使用Malloc的内存片

Linux分段故障(核心转储)

Valgrind用net_pton()抱怨

在运行时判断C/C++指针是否指向只读内存(在Linux操作系统中)

RISC-V GCC编译器错误编译ASM代码

为什么argc和argv即使在主函数之外也能工作？

将char*铸造为空**

如何为avr atmega32微控制器构建C代码，通过光电二极管捕获光强度并通过串行通信传输数据

使用fread()函数读取txt文件

如何转义包含指令中的字符？

nullptr_t 是否会 destruct 类型双关或指针转换？

仅使用其内存地址取消引用 C 中的 struct

Codewars Kata 掷骰子的不稳定行为