C++ 如何系统地使用软件预取

发布于05月15日

在阅读了When should we use prefetch?篇公认的答案和Prefetching Examples?篇的例子之后，我仍然有很多问题需要理解何时真正使用预回迁.虽然这些答案提供了一个预取有用的例子，但它们并没有解释如何在实际程序中发现预取.这看起来像是随机猜测.

特别是，我对英特尔x86的C实现(prefetchnta、prefetcht2、prefetcht1、prefetcht0、prefetchw)感兴趣，这些实现可以通过GCC的__builtin_prefetch个内部版本访问.我想知道:

我怎样才能看到软件预取对我的特定程序有帮助？我想我可以用英特尔Vtune或Linux utility perf收集CPU评测指标(例如缓存未命中数).在这种情况下，什么指标(或它们之间的关系)表明了通过软件预取提高性能的机会？
如何找到缓存丢失最严重的负载？
如何查看发生未命中的缓存级别来决定使用哪个预取(0,1,2)？
假设我在特定的缓存级别发现了一个因未命中而受到影响的特定负载，那么我应该将预取放在哪里？例如，假设下一个循环发生缓存未命中

for (int i = 0; i < n; i++) {
   // some code
   double x = a[i];
   // some code
}

我应该在加载a[i]之前还是之后进行预取？它应该领先多远点a[i+m]？我是否需要担心展开循环以确保只在缓存线边界上预取，或者如果数据已经在缓存中，它将几乎像nop一样自由？一行使用多个__builtin_prefetch调用一次预取多条缓存线是否值得？

推荐答案