使用 openMP 并行化 - 堆栈或堆变量

parallelization with openMP - stack or heap variables

本文关键字：变量堆栈 openMP 并行化使用更新时间：2023-10-16

>我有一个并行化的工作解决方案。但是，并行化可以稍微缩短执行时间。我认为它来自我新建并删除循环中的一些变量的事实。我希望它是堆栈创建的，但是命令类是抽象的，并且必须保持抽象。我能做些什么来解决这个问题？如何改善在这些非常长的循环上花费的时间???

#pragma omp parallel for  reduction(+:functionEvaluation)
for (int i=rowStart;i<rowEnd+1;i++)
{
    Model model_(varModel_);
    model_.addVariable("i", i);
    model_.addVariable("j", 1);
    Command* command_ = formulaCommand->duplicate(&model_);
    functionEvaluation += command_->execute().toDouble();
    delete command_;
}

问题也可能出在其他地方！欢迎建议！！

谢谢和问候。

您可能希望使用private或firstprivate子句。

您的#pragma将包含...private(varModel, formulaCommand)...或类似变量，然后每个线程都有自己的这些变量副本。使用 firstprivate 将确保特定于线程的变量具有复制的初始值，而不是未初始化。这将消除new和delete的需要，假设您可以修改每个循环迭代的实例。

这可能会也可能不会按预期工作，因为您没有提供很多细节。

我认为您应该尝试使用一种机制来重用分配的内存。您可能不知道即将Command对象的大小或对齐方式，因此"足够大"的缓冲区是不够的。我会让你的duplicate方法采用两个参数，第二个是对boost::pool的引用。如果池对象足够大，只需在其中构造新的Command对象，如果不展开它，则构造到其中。 boost::pool将为您处理对齐问题，因此您不必考虑它。这样，每个线程只需执行几次动态内存分配。

顺便说一下，在C++中返回原始指针通常不是好的做法。改用智能指针，这样更好，没有任何但是......好吧，有一个但在这种情况下:)，因为根据我的建议，您将在引擎盖下进行一些自定义内存管理。不过，最佳做法是编写一个自定义智能指针，该指针可以优雅地处理您的特殊情况，而不会冒着用户搞砸的风险。您当然可以像其他人一样，在这种情况下例外:)（不过，我的建议在正常情况下仍然有效，例如在上面的问题中，您通常应该使用类似 boost::scoped_ptr 的东西）