无法使用英特尔编译器强制内联C++函数

Can't force inlining C++ function using Intel compiler

本文关键字：C++ 函数编译器英特尔更新时间：2023-10-16

我有一个函数定义为

inline void vec_add(__m512d &v3, const __m512d &v1, const __m512d &v2) {
    v3 = _mm512_add_pd(v1, v2);
}

(__m512d是一个本地数据类型映射到Intel MIC架构上的SIMD寄存器)

由于此函数相当短且经常被调用，因此我希望在每次调用时都将其内联。但是英特尔的编译器似乎不愿意内联这个函数，即使在我使用-inline-forceinline和-O3选项之后。它报告说，"Forceinline未被调用……"，同时编译。由于我必须使用一些编译器特定的功能，例如__m512d类型，英特尔编译器是我唯一的选择。

更多信息:

文件结构非常简单。函数vec_add定义在头文件mic.h中，该头文件包含在另一个文件test.cc中。函数vec_add只是在循环中重复调用，不涉及函数指针。test.cc中简化版的代码如下所示

for (int i = 0; i < LENGTH; i += 8) {
    // a, b, c are arrays of doubles, and each SIMD register can hold 8 doubles
    __mm512d va = _mm512_load_pd(a + i); // load SIMD register from memory
    __mm512d vb = _mm512_load_pd(b + i); // ditto
    __mm512d vc;
    vec_add(vc, va, vb); // store SIMD register to memory
    _mm512_store_pd(c + i, vc);
}

我尝试了各种提示，如__attribute__((always_inline)), __forceinline和编译器选项-inline-forceinline，但没有一个有效。

完整代码

我把所有相关的代码以简化的形式放在一起。如果你有英特尔编译器，你可以尝试一下。使用-Winline选项查看内联报表，使用-inline-forceinline选项强制内联。

#include <stdio.h>
#include <stdlib.h>
#include <immintrin.h>
#define LEN (1<<20)
__attribute((target(mic)))
inline void vec_add(__m512d &v3, const __m512d &v1, const __m512d &v2) {
    v3 = _mm512_add_pd(v1, v2);
}
int main() {
    #pragma offload target(mic)
    {
        double *a = (double*)_mm_malloc(LEN*sizeof(double), 64);
        double *b = (double*)_mm_malloc(LEN*sizeof(double), 64);
        double *c = (double*)_mm_malloc(LEN*sizeof(double), 64);
        for (int i = 0; i < LEN; i++) {
            a[i] = (double)rand()/RAND_MAX;
            b[i] = (double)rand()/RAND_MAX;
        }
        for (int i = 0; i < LEN; i += 8) {
            __m512d va = _mm512_load_pd(a + i);
            __m512d vb = _mm512_load_pd(b + i);
            __m512d vc;
            vec_add(vc, va, vb);
            _mm512_store_pd(c + i, vc);
        }
        _mm_free(a);
        _mm_free(b);
        _mm_free(c);
    }
}

<<p> 配置/strong>
编译器:Intel Compiler (ICC) 14.0.2
编译选项:-O3 -inline-forceinline -Winline
你知道为什么这个函数不能内联吗?我怎么才能让它内联毕竟(我不想转向宏)?

由于某种原因，英特尔编译器在卸载代码中不做函数内联(我不太熟悉这个概念，所以我不知道这是什么技术原因)。参见effective-use-of- intel-compiler -offload-features获取更多信息(只需搜索"inline")。

引用链接文章:

函数内联到卸载结构

有时候，内联函数对于实现最佳性能是必要的生成的代码。在#pragma offload中直接调用的函数不被编译器内联，即使它们被标记为内联。来在卸载区域启用代码的最佳性能，或者手动启用内联函数，或者将整个卸载构造放到自己的结构中函数。

…

一个解决方案是手动内联函数f，如function所示v2。

另一个解决方案是将卸载构造移到它自己的构造中函数如函数v3所示。

如果我理解正确的话，最好的方法是将循环放入一个单独的函数中，该函数也标记为__attribute((target(mic)))。