C++ AV512：结合水平求和和广播的最佳方式

发布于06月05日

已经有一个关于horizontal sums using AVX512的问题了.我试着做一些类似的事情，但在求和之后，我想将结果广播给__m512d变量中的所有8个元素.到目前为止，我已经try 了:

使用英特尔提供的宏:

double sum = _mm512_reduce_add_pd( mvx );
sumx = _mm512_set1_pd( sum );

使用随机/置换，尽量避免车道交叉:

sumx = mvx;

mvx = _mm512_shuffle_pd(mvx, mvx, 0b01010101);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_permutex_pd(mvx, _MM_PERM_ABCD);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_shuffle_pd(mvx, mvx, 0b01010101);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_shuffle_f64x2(mvx,mvx, _MM_SHUFFLE(1,0,3,2));
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_shuffle_pd(mvx, mvx, 0b01010101);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_permutex_pd(mvx, _MM_PERM_ABCD);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_shuffle_pd(mvx, mvx, 0b01010101);
sumx = _mm512_add_pd(mvx, sumx);

使用@PeterCordes的提示，将添加/洗牌减少到3:

sumx = mvx;

mvx = _mm512_shuffle_pd(mvx, mvx, 0b01010101);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_permutex_pd(sumx, _MM_PERM_ABCD);
sumx = _mm512_add_pd(mvx, sumx);

mvx = _mm512_shuffle_f64x2(sumx,sumx, _MM_SHUFFLE(1,0,3,2));
sumx = _mm512_add_pd(mvx, sumx);

在每种情况下，mvx是__m512d输入，sumx是__m512d输出.

我正在使用英特尔编译器在英特尔Skylake CPU上进行基准测试:

版本1:2.17s
版本2:2.31s
版本3:1.96s

这是我能做的最好的事情了吗？或者你有没有其他方法来优化这个操作？

摘要:

第一次洗牌vshufpd就够了.即使向量从内存中开始，您也不需要内存源vpermilpd，因为您需要将向量的另一个副本作为vaddpd的输入.可以在future 的E-core上以更低的成本处理其中一个.这是一个通道内洗牌，所以它分解成多个更窄的洗牌，对于E-core来说是微不足道的.

对于中间混洗(交换128位对)来说，vpermpd-Immediate是一个很好的 Select ；future 的E-core很可能可以有效地处理它(作为两个独立的256位半部分).不过，vshuff64x2可以分解为两个单独的512位输入/256位输出混洗，因此也不算差.

带有向量控制操作数的vpermpd不容易分解，但它是一个不同的操作码，因此希望即使向量控制版本速度较慢，直接控制版本仍然会很便宜.不知何故，Alder Lake E-core确实成功地将vpermps ymm作为2个uop运行.

vshuff64x2或valignq对于在Intel CPU上交换256位的一半同样好，并且在Zen 4上彼此相等.对于E-core来说，vshuff64x2显然更容易有效地实现:两者具有相同的输入量(vshuff64x24位)，但对于任何给定的输出位，vshuff64x2的可能来源要少得多(4比16，并且如果两个来源不是相同的寄存器，则对哪个来源供给哪个输出的限制更多).此外，这可能是一种更常用的洗牌，因此建筑师更有可能使用晶体管来使其不太慢.

vextractf64x4+vinsertf64x4在Zen 4上的延迟会更低，这可能会影响也可能不会影响到周围的代码.但vshuff64x2 zmm仍然是Zen 4上的Single-uop，只有4个周期的延迟，就像其他512位的穿越车道洗牌一样.假设带有AVX-512的较小内核可能会运行2个或更多.

Footnote 1:IDK为什么Ice Lake/Alder Lake不能使用寄存器源和立即控制将vpermilpd解码为读取相同输入两次的vshufpd微操作，因为在这种情况下，相同的立即位将产生相同的置乱.这似乎是一个遗漏的优化，尽管它可能会在解码器中的某个地方产生一个uop，其中内存源版本的1个输入与寄存器源版本的2个输入产生uop.因此，改为更改Shuffle执行单元以在这种情况下复制一个输入，作为让端口1处理vpermilpd个uop的一种方式，从而使得以这种方式处理内存源并不特别.以不得不在混洗单元的端口1输入上处理更多不同的控制输入为代价？

在Ice Lake/Alder Lake上，当没有512位uop运行时，端口1执行单元可以处理一些但不是全部128位和256位混洗.它可能只是512位混洗执行单元的一半，512位混洗执行单元通常可以从端口5访问.(同样的方式，它们处理端口0或1上的256位FP数学指令，但当端口1关闭时，它作为单个512位FMA单元工作.)因此，当混洗单元的通道处于端口5的vpermilpd zmm, zmm, imm8的上半部分时，它可以处理vpermilpd.因此，当通过端口1访问时，似乎只需要最少的额外逻辑就能做到这一点.(vpermilpd zmm和vshufpd zmm以彼此相同的方式使用其立即数的高4位，并且与低4位对低半部起作用相同.每条128位通道都有2位控制输入.)

我想知道是否有意确保vpermilpd/ps不能从FP数学运算中窃取周期(256位的端口0和1).这可能是有意义的，甚至可能对调整P01吞吐量与Shuffle吞吐量之间的瓶颈的循环很有用:他们可以使用vshufpd y, same,same, i让它在端口1或5上运行，或者只在较小的机器代码大小(2字节VEX)上运行.或vpermilpd y, ymm/mem, i将其限制为端口5，如果vshufpd不需要3字节的VEX，则代价是机器代码大小的额外字节.(或者，如果它正在混洗内存源，则为整个单独的指令.但像许多具有立即操作数的指令一样，Intel CPU不能微融合Load+ALU uop，因此发布带宽的成本是相同的.)

这似乎不太可能.也许他们只是分析了现有的代码，发现shufpd/vshufpd更常见，因此也更重要；这并不奇怪，因为shufpd是SSE2，而vpermilpd直到AVX1才存在.因此，这一因素可能是影响与 Select YMM Shuffles相关的设计的原因，尽管vshufpd ymm和vpermilpd都是AVX1的新功能.

但对future 的猜测是，Alder Lake的英特尔Gracemont E-core性能相同，分别为vpermilpd ymm, ymm, i8和vshufpd ymm, ymm, ymm, i8.

C++ AV512：结合水平求和和广播的最佳方式

推荐答案

摘要:

C++相关问答推荐

C限制限定符是否可以通过指针传递？

GCC：try 使用—WError或—pedantic using pragmas

手动矢量化性能差异较大

为什么内核使用扩展到前后相同的宏定义？

二进制计算器与gmp

我怎么才能用GCC编译一个c库，让它包含另一个库呢？

在循环中复制与删除相同条件代码的性能

用gcc-msse 2编译的C程序包含AVX 1指令

在句子中转换单词的问题

C代码在字符串中删除不区分大小写的子字符串的问题

关于scanf()和空格的问题

获取前2个连续1比特的索引的有效方法

C语言中神秘的(我认为)缓冲区溢出

用C++构建和使用DLL的困惑

问题：C#Define上的初始值设定项元素不是常量

Linux/C：带有子进程的进程在添加waitid后都挂起

如何找出C中分配在堆上的数组的大小？

如何为avr atmega32微控制器构建C代码，通过光电二极管捕获光强度并通过串行通信传输数据

添加/删除链表中的第一个元素

多行表达式：C 编译器如何处理换行符？