优化我的内部循环(ARM,android ndk)

optimizing my inner loop (ARM, android ndk)

本文关键字:android ndk ARM 我的 内部 循环 优化      更新时间:2023-10-16

我正在Android上编写一个图像处理应用程序,我正在尝试使用NDK加速它。我有以下 for 循环:

int x, y, c, idx;
const int pitch3 = pitch * 3;
float adj, result;
...
// px, py, u, u_bar are all float arrays of size nx*ny*3
// theta, tau, denom are float constants
// idx >= pitch3  
for(y=1;y<ny;++y)
{
  for(x=1;x<nx;++x)
  {
    for(c=0;c<3;++c)
    {
      adj = -px[idx] - py[idx] + px[idx - 3] + py[idx - pitch3];
      result = ((u[idx] - tau * adj) + tau * f[idx]) * denom;
      u_bar[idx] = result + theta * (result - u[idx]);
      u[idx] = result;
      ++idx;
    }
  }
}

我想知道是否有可能加快这个循环?

我认为使用定点算术不会做太多事情,除了在非常旧的Android手机上(我不打算针对)。在汇编中编写它会有很大的改进吗?

编辑:我知道我可以使用 SIMD/NEON 指令,但我认为它们并不常见......

由于您以平面结构访问数组,因此 3 级循环只会增加用于 idx 的值。 你可以循环 (idx = pitch3; idx

另一种选择是转向定点数学。 您真的需要超过64位的动态范围吗?