为什么 tanh 在我的机器上比 exp 快?

Why tanh is faster than exp on my machine?

本文关键字：exp 机器 tanh 我的为什么更新时间：2023-10-16

这个问题源于一个单独的问题，结果证明它有一些明显的机器特定的怪癖。当我运行下面列出的C++代码来记录tanh和exp之间的时序差异时，我看到以下结果：

tanh: 5.22203
exp: 14.9393

tanh运行速度是exp的 ~3 倍。考虑到tanh的数学定义(并且对实现的算法定义一无所知)，这有点令人惊讶。

更重要的是，这发生在我的笔记本电脑上(Ubuntu 16.04，英特尔酷睿 i7-3517U CPU @ 1.90GHz × 4)，但不会发生在我的桌面上(相同的操作系统，现在不确定 CPU 规格)。

我用g++编译了下面的代码。上述时间没有编译器优化，尽管如果我对每个n都使用-On，趋势仍然存在。我还摆弄了a和b值，以查看正在评估的值范围是否产生影响。这似乎并不重要。

是什么导致tanh比不同机器上的exp更快？

#include <iostream>
#include <cmath>
#include <ctime>
using namespace std;
int main() {
double a = -5;
double b =  5;
int N =  10001;
double x[10001];
double y[10001];
double h = (b-a) / (N-1);
clock_t begin, end;
for(int i=0; i < N; i++)
x[i] = a + i*h;
begin = clock();
for(int i=0; i < N; i++)
for(int j=0; j < N; j++)
y[i] = tanh(x[i]);
end = clock();
cout << "tanh: " << double(end - begin) / CLOCKS_PER_SEC << "n";
begin = clock();
for(int i=0; i < N; i++)
for(int j=0; j < N; j++)
y[i] = exp(x[i]);
end = clock();
cout << "exp: " << double(end - begin) / CLOCKS_PER_SEC << "n";

return 0;
}

编辑：一些程序集输出

当我使用g++ -g -O -Wa,-aslh nothing2.cpp > stuff.txt编译以下简化代码时，这是输出的。

#include <cmath>
int main() {
double x = 0.0;
double y,z;
y = tanh(x);
z = exp(x);
return 0;
}

编辑：另一个更新

假设nothing2.cpp包含上一次编辑中的简化代码。我跑：

g++ -o nothing2.so -shared -fPIC nothing2.cpp
objdump -d nothing2.so > stuff.txt

以下是stuff.txt的内容

有各种可能的解释，适用于您的解释取决于您正在使用的平台或确切正在使用的数学库。但一种可能的解释是：

首先，tanh的计算不依赖于tanh的标准定义，而是用exp(-2*x)或expm1(2*x)来表示，这意味着只需要计算一个指数，这可能是繁重的操作(此外还有一个除法和一些补充)。

其次，这可能是诀窍，对于x的较大值，这将减少到(exp(2*x)-1)/(exp(2*x)+1) = 1 - 2/(expm1(2*x)+2)。这里的优点是，由于第二项很小，因此不必以相同的相对精度计算即可获得相同的最终精度。这意味着人们通常不需要这里的expm1。

同样对于x的 smalish 值，将其重写为(1-exp(-2*x))/(1+exp(-2*x)) = - 1/ (1 + 2/(expm1(-2*x)+2)也有类似的技巧，这再次意味着我们可以利用该因子exp(-2*x)很大而不必以相同的精度计算它。但是，您不必以这种方式实际计算它，而是使用表达式expm1(-2*x)/(2+expm1(-2*x))，对expm1具有相同的精度要求。

此外，对于较大的x值，还有其他优化，这对于基本相同来源的exp是不可能的。对于较大的x因子expm1(2*x)将变得如此之大，以至于我们可以简单地完全丢弃它，而对于exp，我们仍然必须计算它(即使是大负x也是如此)。对于这些值tanh将立即决定1，同时必须计算exp。