C++ SSE 筛选器实现
C++ SSE filter implementation
我尝试使用 SSE 进行 4 像素操作。我在将图像数据加载到__m128时遇到问题。我的图像数据是一个字符缓冲区。假设我的图像是 1024 x1024。我的过滤器是 16x16。
__m128 IMG_VALUES, FIL_VALUES, NEW_VALUES;
//ok:
IMG_VALUES=_mm_load_ps(&pInput[0]);
//hang below:
IMG_VALUES=_mm_load_ps(&pInput[1]);
我不知道如何处理索引 1,2,3... 谢谢。
如果你真的需要用浮点而不是整数/定点来做这件事,那么你将需要加载你的 8 位数据,解压缩到 32 位(需要两个操作:8 位到 16 位,然后 16 位到 32 位),然后转换为浮点数。不过,这是非常低效的,您应该考虑使用例如 16 位定点操作来执行此操作。
请注意,对于每个 16 像素加载,您将有 4 个 4 x 浮点数块进行处理,即 16 x 8 位像素的向量将变成 4 个浮点数的 4 x 向量。
所需内部函数摘要:
_mm_load_si128(...) // load 16 x 8 bit values
_mm_unpacklo_epi8(...) // unpack 8 bit -> 16 bit
_mm_unpackhi_epi8(...)
_mm_unpacklo_epi16(...) // unpack 16 bit -> 32 bit
_mm_unpackhi_epi16(...)
_mm_cvtepi32_ps(...) // convert 32 bit int -> float
相关文章:
- 如果没有malloc,链表实现将失败
- 如何在c++中实现处理器调度模拟器
- 如何在c++中使用引用实现类似python的行为
- 实现无开销push_back的最佳方法是什么
- 使用简单类型列表实现的指数编译时间.为什么
- 如何在BST的这个简单递归实现中消除警告
- 实现一个在集合上迭代的模板函数
- 我应该实现右值推送功能吗?我应该使用std::move吗
- 如何正确实现和访问运算符的各种自定义枚举器
- C++Union/Struct位域的实现和可移植性
- 这个极客对极客的trie实现是否存在内存泄漏问题
- 在c++中实现LinkedList时,应出现未处理的错误
- 为左值和右值的包装器实现C++范围
- 使用模板进行堆栈实现; "name followed by :: must be a class or namespace"
- 使用GSoap实现ONVIF
- 在用于格式4的arm模拟器中实现功能时的一个问题
- 在 Opencv 2.4.6 ubuntu 中筛选实现
- C++ SSE 筛选器实现
- Eratosthenes c++实现错误的筛选
- 筛选(标准)设计模式的正确实现