可移植显式预取

Portable explicit prefetch

本文关键字:预取 可移植      更新时间:2023-10-16

我需要一种简单且可移植的方法来显式预取数据。我不想使用任何特定编译器或平台的特定功能,只想使用足够通用的功能来跨不同的平台和编译器工作。

脑海中出现的一个非常天真的解决方案是,只需将一个字节/int从内存位置移动到一个寄存器,就可以"应该"将该内存段带到CPU缓存中以填充一行,至少这是我逻辑上的假设。但也许事情不会那么容易?一种可能性是,如果没有在特定范围内访问数据,编译器可以优化操作,因此不会发生预取。

一般来说,预取和内存加载并不是完全相同的操作。有几个基本区别:

  1. 预取无效地址不会产生故障,而尝试读取、写入或执行无效地址会产生故障(当然,如果CPU有MPU/MMU)
  2. 预取可以用于读取和/或写入,而仅仅将字节读取到寄存器中就是将字节读取寄存器中
  3. 您可以(理论上)在预取时指定内存位置
  4. CPU可能具有与内存加载指令不同的用于预取的特殊指令

所以只需使用__builtin_prefetch,让编译器来完成艰苦的工作。

此外,请记住,优化编译器可能会自动生成预取指令。我想如果他们这样做了,那么你就必须确保你不会干涉。

另一件有趣的事情是,通常情况下,显式预取不会提高性能,反而会略微降低性能。请参阅LWN的这篇文章,了解从Linux内核中完全删除预取的详细信息和解释。

希望能有所帮助。祝你好运