多处理器加速::线程?所有线程都在一个处理器上运行

Multiprocessor Boost::Thread? All threads running on one processor

本文关键字：线程一个运行处理器加速多处理器更新时间：2023-10-16

我有一个令人尴尬的并行问题，我想在多个处理器上执行。我原以为boost::thread会自动将新线程发送到新处理器，但所有这些线程都在与父进程相同的内核上执行。是否可以让每个线程在不同的处理器上运行，或者我是否需要像 MPI 这样的东西？

我的怀疑是boost::thread根本不是一个多处理器工具，我要求它做一些它不是为它设计的东西。

编辑：我的问题归结为：为什么所有线程都在一个处理器上执行？有没有办法让boost::thread将线程发送到不同的处理器？

这是我的代码的相关示例：

size_t lim=1000;
std::deque<int> vals(lim);
std::deque<boost::thread *> threads;
int i=0; 
std::deque<int>::iterator it = vals.begin();
for (; it!=sigma.end(); it++, i++) {
  threads.push_back(new boost::thread(doWork, it, i));
  while (threads.size() >= maxConcurrentThreads) {
    threads.front()->join();
    delete threads.front();
    threads.pop_front();
  }
}
while(threads.size()) {
  threads.front()->join();
  threads.pop_front();
}

应该清楚的是，doWork使用参数 i 进行一些计算并将结果存储在 vals . 我的想法是，将maxConncurrentThreads设置为等于可用内核的数量，然后每个线程将使用空闲的内核。我只需要有人确认boost::thread不能以这种方式工作。

（我猜有比使用队列更好的方法来限制并发线程的数量;也请随时责骂我。

这是doWork函数：

void doWork(std::deque<int>::iterator it, int i) {
  int ret=0;
  int size = 1000; // originally 1000, later changed to 10,000,000
  for (int j=i; j<i+size; j++) {
    ret+=j;
  }
  *it=ret;
  return;
}

编辑：正如Martin James所建议的那样，问题在于doWork功能最初只有1000个int添加。对于如此小的作业，调度线程比执行线程花费的时间更长，因此只使用了一个处理器。使作业更长（添加 10,000,000 个整数）会产生所需的行为。关键是：默认情况下，boost::thread将使用多个内核，但是如果您的线程所做的工作少于调度线程，那么您将不会看到多线程的任何好处。

感谢大家帮助我理解这一点。

您始终加入队列中的第一个线程。如果此线程花费很长时间，则可能是剩下的唯一线程。我想你想要的是在任何线程完成后启动一个新线程。

我不知道为什么你只得到一个有效的并发级别。

在查看了doWork功能之后，我认为它所做的工作很少，以至于它首先花费的工作量比启动线程要少。尝试通过更多工作（1000x）运行它。