容易.快速比较两个 800k 每个元素数组的方法

Easy. Fast way to compare two 800k each elements arrays

本文关键字:800k 元素 数组 方法 两个 比较 容易      更新时间:2023-10-16

使用mt19937_64生成器,我生成了 800 000 个整数,范围从 0 到 30 000 000。每个数字都必须是唯一的,所以我应该将其与每个已经生成的整数进行比较:

unsigned array[800 000]; 
for (int i = 0; i < 800 000; i++)
  {
    generate_again:      
    buffer = uid(rng); // generate in buffer
    for (int j = 0; j < i; j++) // *comparing to every already generated integer
      {
        if (buffer == array[j])
          goto generate_again; // if the same integer exist, go togenerate_again flag
      }
      array[i] = pepper; // is integer is unique - it goes to array.
  }

此比较大约需要 16 分钟。如何才能更快地完成?谢谢。

您可以先按顺序生成唯一编号,然后将它们洗牌以获得最终结果(如果需要的话)。

如果已生成值,则使用 std::bitset 将是一种有效的存储方法。或者,如果你在编译时实际上不知道值的数量,你可以使用std::vector<bool>,这是一种使用位运算的专用化,也会为你节省一些空间。

#include <iostream>
#include <vector>
#include <algorithm>
#include <random>
#include <bitset>

int main()
{
    static constexpr int max_value = 30'000'000;
    static constexpr int n_values = 800'000;
    std::bitset<max_value + 1> have_num;
    int cur_n_values = 0;
    std::mt19937_64 mt{std::random_device{}()};
    std::uniform_int_distribution<int> distribution{0, max_value};

    while (cur_n_values != n_values) {
        auto newVal = distribution(mt);
        if (!have_num[newVal]) {
            have_num[newVal] = true;
            ++cur_n_values;
        }
    }
    std::vector<int> nums;
    nums.reserve(n_values);
    for (int i = 0; i < have_num.size(); ++i) {
        if (have_num[i]) {
            nums.push_back(i);
        }
    }
    std::shuffle(nums.begin(), nums.end(), mt);
    for (auto i : nums) {
        std::cout << i << " ";
    }
}

首先,通过循环数组来消除检查。如果您只有 30E6 变体,如果您有足够的空间,您可以尝试将它们放在一个布尔标志数组中。这将花费大约30Mb。内存的另一种优化可能是将标志打包到位掩码。这将花费8倍。它将提高速度。因此,拥有 30Mb/8 (~4Mb) 大小的标志数组,您可以在恒定时间内检查是否存在已生成的数字。这种手段大大提高了速度。但还有另一个问题:拥有许多代人,您将陷入反复的碰撞中。

如果您不需要生成数组,请检查唯一性并删除元素 - 仅存储唯一编号。

尝试使用 hashed_unique boost::multiindex。如果要保持秩序,请使用 ordered_unique .

另请参阅:此