使用 SIMD 管理累积(单个）值的清理代码循环的方法是什么

What the method to manage Cleanup Code loop for a cumulative (single) value packed into two values using SIMD?

本文关键字：代码循环是什么方法管理 SIMD 单个使用更新时间：2023-10-16

假设我管理一个名为 v_phase 的__m128d变量，其计算公式为

index 0 : load prev phase
index 1 : phase += newValue
index 2 : phase += newValue
index 3 : phase += newValue
index 4 : phase += newValue
...

这是基本代码：

__m128d v_phase;
// load prev cumulated mPhase to v_phase (as mPhase, mPhase + nextValue)
for (int sampleIndex = 0; sampleIndex < blockSize; sampleIndex += 2, pValue += 2) {
    // function with phase
    // update pValue increment (its not linear)
    // phase increment: v_phase += newValue
}
// cleanup code
if (blockSize % 2 == 0) {
    mPhase = v_phase.m128d_f64[0];
}

事实是：如果blockSize是偶数，它工作正常：它将在最后一次循环迭代中将另外两个相位值相加，并取v_phase.m128d_f64[0]（即新添加的两个相位值中的第一个）。

但是，如果blockSize很奇怪呢？我只需要上次迭代的v_phase.m128d_f64[1]，而无需再对两个相位值求和。

我可以使用sampleIndex < blockSize - 1，但这会将逻辑// function with phase移动到// cleanup code（我不太喜欢它）。

在

循环中放置一个if是我会避免的事情（branc预测;因为我使用的是SIMD，所以我正在优化代码，这会变慢）。

有什么提示吗？

下面是一个更"完整"的示例：

double phase = mPhase;
__m128d v_pB = _mm_setr_pd(0.0, pB[0]);
v_pB = _mm_mul_pd(v_pB, v_radiansPerSampleBp0);
__m128d v_pC = _mm_setr_pd(0.0, pC[0]);
v_pC = _mm_mul_pd(v_pC, v_radiansPerSample);
__m128d v_pB_prev = _mm_setr_pd(0.0, 0.0);
v_pB_prev = _mm_mul_pd(v_pB_prev, v_radiansPerSampleBp0);
__m128d v_pC_prev = _mm_setr_pd(0.0, 0.0);
v_pC_prev = _mm_mul_pd(v_pC_prev, v_radiansPerSample);
__m128d v_phaseAcc1;
__m128d v_phaseAcc2;
__m128d v_phase = _mm_set1_pd(phase);
// phase
v_phaseAcc1 = _mm_add_pd(v_pB, v_pC);
v_phaseAcc1 = _mm_max_pd(v_phaseAcc1, v_boundLower);
v_phaseAcc1 = _mm_min_pd(v_phaseAcc1, v_boundUpper);
v_phaseAcc2 = _mm_add_pd(v_pB_prev, v_pC_prev);
v_phaseAcc2 = _mm_max_pd(v_phaseAcc2, v_boundLower);
v_phaseAcc2 = _mm_min_pd(v_phaseAcc2, v_boundUpper);
v_phase = _mm_add_pd(v_phase, v_phaseAcc1);
v_phase = _mm_add_pd(v_phase, v_phaseAcc2);
for (int sampleIndex = 0; sampleIndex < blockSize; sampleIndex += 2, pB += 2, pC += 2) {
    // code that will use v_phase
    // phase increment
    v_pB = _mm_loadu_pd(pB + 1);
    v_pB = _mm_mul_pd(v_pB, v_radiansPerSampleBp0);
    v_pC = _mm_loadu_pd(pC + 1);
    v_pC = _mm_mul_pd(v_pC, v_radiansPerSample);
    v_pB_prev = _mm_load_pd(pB);
    v_pB_prev = _mm_mul_pd(v_pB_prev, v_radiansPerSampleBp0);
    v_pC_prev = _mm_load_pd(pC);
    v_pC_prev = _mm_mul_pd(v_pC_prev, v_radiansPerSample);
    v_phaseAcc1 = _mm_add_pd(v_pB, v_pC);
    v_phaseAcc1 = _mm_max_pd(v_phaseAcc1, v_boundLower);
    v_phaseAcc1 = _mm_min_pd(v_phaseAcc1, v_boundUpper);
    v_phaseAcc2 = _mm_add_pd(v_pB_prev, v_pC_prev);
    v_phaseAcc2 = _mm_max_pd(v_phaseAcc2, v_boundLower);
    v_phaseAcc2 = _mm_min_pd(v_phaseAcc2, v_boundUpper);
    v_phase = _mm_add_pd(v_phase, v_phaseAcc1);
    v_phase = _mm_add_pd(v_phase, v_phaseAcc2);
}
// cleanup code
if (blockSize % 2 == 0) {
    mPhase = v_phase.m128d_f64[0];
}
else {
    ??? if odd?
}

除了

最后一个之外，您还可以从循环中输出前一个v_phase。也就是说，在更新您的v_phase之前，存储上一个：

__m128d prev_v_phase;
for (...) {
    ...
    prev_v_phase = v_phase;
    v_phase = _mm_add_pd(v_phase, v_phaseAcc1);
    v_phase = _mm_add_pd(v_phase, v_phaseAcc2);
}
// cleanup code
if (blockSize % 2 == 0) {
    mPhase = v_phase.m128d_f64[0];
}
else {
    mPhase = prev_v_phase.m128d_f64[1];
}

如果循环根本不执行任何迭代（然后prev_v_phase将未初始化），这将失败，但在这种情况下，性能并不重要，因此易于处理。