SSE本质-逻辑非优化
SSE Intrinsics - Logical NOT Optimization
我正在使用SSE对图像中的像素执行逐位NOT操作。
我有一些问题:
- 这可以使用OpenMP进一步优化吗
- 我的算法中是否存在可以优化的瓶颈
这是我的代码:
unsigned int iSSE2Size = (SrcImage1.GetHeight() * (SrcImage1.GetStepBytes() >> 1)) >> 3;
__m128i *m_ucSrcPtr = (__m128i *)SrcImage1.GetWordPtr();
__m128i *m_ucDstPtr = (__m128i *)DestImage.GetWordPtr();
__m128i iMaxVal = _mm_set1_epi16(0xFFFF);
unsigned short *srcRowPtr, *dstRowPtr;
while (iSSE2Size-- > 0)
{
*m_ucDstPtr = _mm_andnot_si128(*m_ucSrcPtr, iMaxVal );
m_ucSrcPtr++;
m_ucDstPtr++;
}
-
是的,你可以尝试循环展开和使用OpenMP来优化你的代码。
#pragma omp parallel for for (;iSSE2Size-=2 > 0;) { *m_ucDstPtr = _mm_andnot_si128(*m_ucSrcPtr, iMaxVal ); m_ucSrcPtr++; m_ucDstPtr++; *m_ucDstPtr = _mm_andnot_si128(*m_ucSrcPtr, iMaxVal ); m_ucSrcPtr++; m_ucDstPtr++; }
请注意,您可能可以多次展开以提高性能。
-
在您提供的代码片段中,我看不到任何瓶颈。
相关文章:
- 空基优化子对象的地址
- 本质:使用__128寄存器
- 关闭||运算符优化
- 如何解决gcc编译器优化导致的centos双编译器设置中的分段错误
- 返回值优化:显式移动还是隐式
- 人脸跟踪arduino代码的优化
- 使用仅使用一次的变量调用的复制构造函数.这可能是通过调用move构造函数进行编译器优化的情况吗
- 纯函数,为什么没有优化
- 为什么大多数 pair 实现默认不使用压缩(空基优化)?
- 如何以优化的方式同时迭代两个间距不相等的数组
- 小字符串优化(调试与发布模式)
- 浮点定向舍入和优化
- Visual Studio 调试优化如何工作?
- 为什么开关的优化方式与 c/c++ 中的链接不同?
- 线性优化目标函数中的绝对值
- GCC 会优化内联访问器吗?
- gcc 如何优化此循环?
- 如何防止 CUDA-GDB 中的<优化输出>值
- 为什么我的程序在 O0 和 O2 的优化级别返回不同的结果
- SSE本质-逻辑非优化