C++ 从寄存器移动到频繁访问的变量时性能意外降低

发布于07月27日

我正在通过以下示例了解缓存的工作原理:

#include <stdio.h>
#include <stdint.h>
#include <stdlib.h>

typedef uint32_t data_t;
const int U = 10000000;   // size of the array. 10 million vals ~= 40MB
const int N = 100000000;  // number of searches to perform

int main() {
  data_t* data = (data_t*) malloc(U * sizeof(data_t));
  if (data == NULL) {
    free(data);
    printf("Error: not enough memory\n");
    exit(-1);
  }

  // fill up the array with sequential (sorted) values.
  int i;
  for (i = 0; i < U; i++) {
    data[i] = i;
  }

  printf("Allocated array of size %d\n", U);
  printf("Summing %d random values...\n", N);

  data_t val = 0;
  data_t seed = 42;
  for (i = 0; i < N; i++) {
    int l = rand_r(&seed) % U;
    val = (val + data[l]);
  }

  free(data);
  printf("Done. Value = %d\n", val);
  return 0;
}

使用perf record./sum和perf report找到的慢速随机访问循环的相关注释如下

  0.05 │       mov    -0x18(%rbp),%eax                                                                 ▒
  0.07 │       mov    -0x10(%rbp),%rcx                                                                 ▒
       │       movslq -0x20(%rbp),%rdx                                                                 ▒
  0.03 │       add    (%rcx,%rdx,4),%eax                                                               ▒
 95.39 │       mov    %eax,-0x18(%rbp)                                                                 ▒
  1.34 │       mov    -0x14(%rbp),%eax                                                                 ▒
       │       add    $0x1,%eax                                                                        ◆
       │       mov    %eax,-0x14(%rbp)

此时，-0x18持有val,-0x10持有data,-0x14持有i,-0x20持有l.左栏中的数字显示花在该指令上的时间百分比.我本以为这条线 add (%rcx, %rdx, 4), %eax将占用最多的时间，因为它必须为data[l](仅为(%rcx, %rdx, 4))执行随机访问加载.这应该只在大约16k/U=0.16%的情况下在L1缓存中，因为我的L1缓存的大小是64k字节，或16k整数.因此，这一操作应该是缓慢的.相反，看起来很慢的操作只是从寄存器%eax移到val，该寄存器被如此频繁地使用，以至于它肯定在高速缓存中.有人能解释一下这是怎么回事吗？

C++ 从寄存器移动到频繁访问的变量时性能意外降低

推荐答案

C++相关问答推荐

malloc实现：判断正确的分配对齐

使用C时，Windows CMD中的argc参数是否包含重定向命令？

获取每个循环迭代结束时的当前时间

如何在C++中处理按键

用gcc-msse 2编译的C程序包含AVX 1指令

在Linux上使用vscode和lldb调试用Makefile编译的c代码

仅从限制指针参数声明推断非混叠

Wcstok导致分段故障

不确定如何处理此编译错误

静态初始化顺序失败是否适用于C语言？

生产者消费者计数器意外输出的C代码

在printf()中用%.*S格式填充长度为0的字符串是否会调用任何UB？如果是，是哪一个？

我编写这段代码是为了判断一个数字是质数、阿姆斯特朗还是完全数，但由于某种原因，当我使用大数时，它不会打印出来

即使客户端不发送数据，也会发生UNIX套接字读取

在C中定义函数指针？

C 语言中霍尔分区的快速排序算法

快速准确计算double的小数指数

仅使用其内存地址取消引用 C 中的 struct

为什么使用 C 引用这个 char 数组会导致 Stack smasing？

我们可以在不违反标准的情况下向标准函数声明添加属性吗？