C++ 为什么即使使用 ffastmath，GCC 和 Clang 也不用浮点数优化 2^n 乘法到 PADDD

发布于05月25日

考虑到这一功能，

float mulHalf(float x) {
    return x * 0.5f;
}

以下函数使用normal个输入/输出生成相同的结果.

float mulHalf_opt(float x) {
    __m128i e = _mm_set1_epi32(-1 << 23);
    __asm__ ("paddd\t%0, %1" : "+x"(x) : "xm"(e));
    return x;
}

这是-O3 -ffast-math的程序集输出.

mulHalf:
        mulss   xmm0, DWORD PTR .LC0[rip]
        ret

mulHalf_opt:
        paddd   xmm0, XMMWORD PTR .LC1[rip]
        ret

-ffast-math启用-ffinite-math-only，"假定参数和结果不是NaN或+-Infs"[1].

因此，如果mulHalf的编译输出在-ffast-math的容差范围内生成更快的代码，则最好使用paddd和-ffast-math.

我从Intel Intrinsics Guide中得到了以下表格.

(MULSS)
Architecture    Latency Throughput (CPI)
Skylake         4       0.5
Broadwell       3       0.5
Haswell         5       0.5
Ivy Bridge      5       1

(PADDD)
Architecture    Latency Throughput (CPI)
Skylake         1       0.33
Broadwell       1       0.5
Haswell         1       0.5
Ivy Bridge      1       0.5

显然，paddd是一个更快的指令.然后我想可能是因为整数和浮点单元之间的旁路延迟.

This answer显示来自Agner Fog的表格.

Processor                       Bypass delay, clock cycles 
  Intel Core 2 and earlier        1 
  Intel Nehalem                   2 
  Intel Sandy Bridge and later    0-1 
  Intel Atom                      0 
  AMD                             2 
  VIA Nano                        2-3

看到这一点，paddd似乎仍然是赢家，尤其是在Sandy Bridge之后的CPU上，但为最近的CPU指定-march只是将mulss改为vmulss，这具有类似的延迟/吞吐量.

为什么GCC和Clang不将乘法优化为2^n，浮点为paddd，甚至-ffast-math？

C++ 为什么即使使用 ffastmath，GCC 和 Clang 也不用浮点数优化 2^n 乘法到 PADDD

推荐答案

C++相关问答推荐

变量的const视图是否定义良好？

ISO_C_BINDING，从Fortran调用C

C如何显示字符串数组中的第一个字母

括号中的堆栈实现错误问题

使用GOTO从多个嵌套循环C继续

VS代码'；S C/C++扩展称C23真关键字和假关键字未定义

Square不与Raylib一起移动

用C语言计算文本文件中的整数个数

添加函数会 destruct 嵌入式C代码(无IDE)

我在反转双向链表时遇到问题

循环中的静态变量与块中的变量和循环

pthread_create的用法

OSDev--双缓冲重启系统

如何使这个While循环在新行上结束

如何组合两个宏来初始化C语言中的字符串数组？

如何在C中处理流水线中的a、n命令？

如何打印循环调度问题的时间表

UpDown控制与预期相反

多行表达式：C 编译器如何处理换行符？

C 中类型说明符的顺序重要吗？