在TBB中实现MapReduce

Implementing MapReduce in TBB

本文关键字:MapReduce 实现 TBB      更新时间:2023-10-16

我想使用TBB"模拟"mapreduce的软件分配,管道范式似乎是一个很好的方式来看待它,因为串行过滤器可以是I/O,并行的可以是Map和Reduce实现,但是这个函数实现接收并返回单个元素(这对于Map来说是ok的,如果只有一个元组是由输入生成的,但是像单词计数这样需要多个输出的东西呢?)reduce在全局hashmap上简单地聚合,而不返回"某些东西"

是否有一种方法可以使用管道来达到这个目的,或者我应该使用类似parallel_while/for的东西?

谢谢!

并行管道通常不像parallel_for那样可伸缩,所以我倾向于尝试使用parallel_for或一些并行递归方案。我建议参考并行排序算法,因为map-reduce与排序非常相似,只是重复的键是合并的。对于较小的核心计数,类似于并行样本排序的东西似乎是很好的灵感。(参见http://parallelbook.com/sites/parallelbook.com/files/code20131121.zip以获得在TBB中的实现)。对于较大的核数,类似于并行归并排序的东西可能更好(参见https://software.intel.com/en-us/articles/a-parallel-stable-sort-using-c11-for-tbb-cilk-plus-and-openmp获得讨论和代码)。