c/c++中的主题挖掘算法

Topic mining algorithm in c/c++

本文关键字：算法 c++ 更新时间：2023-10-16

我正在使用c++进行文章主题提取算法。首先，我写了代码来删除文章、命题等单词。

然后剩下的单词存储在一个字符数组中：char *excluded_string[50] = { 0 };

    while ((NULL != word) && (50 > i)) {
    ch[i] = strdup(word);
    excluded_string[j]=strdup(word);
    word = strtok(NULL, " ");
    skp = BoyerMoore_skip(ch[i], strlen(ch[i]) );
        if(skp != NULL)
        {
            i++;
            continue;
        }
j++;

当ch[i]不是文章或类似的注释时，skp为NULL。此函数检查任何单词是否属于文章或命题。。。etc

现在在末尾，ex.[]包含一组必需单词。现在我想要这个数组中每个单词的出现次数，以及出现次数最多的那个单词之后的出现次数。如果不止一个的话。

我应该使用什么逻辑

我的想法是：取和二维数组。第一列将有单词。第二列I可用于存储计数值。

然后，对于将该字发送到数组的每个字，以及对于该字的每次出现，增加计数值，并将该字的计数值存储在第二列中。

但这既昂贵又复杂。

还有其他想法吗？

如果你想统计数组中每个单词的出现次数，那么你可以做的不比O（n）好（即一次遍历数组）。但是，如果你试图将单词计数存储在二维数组中，那么你每次都必须进行查找，看看单词是否已经存在，这可能会很快变成O（n^2）。

诀窍是使用哈希表来进行查找。当你逐步浏览单词列表时，你会增加哈希表中右侧的条目。每次查找都应该是O（1），所以只要有足够多的单词来抵消哈希算法和内存使用的复杂性，它就应该是有效的（例如，如果你处理的单词少于10个，就不要麻烦了）。

然后，完成后，只需迭代哈希表中的条目，即可找到最大值。事实上，我可能会在计算单词的时候记录下来，这样就没有必要在后面做了（"如果thisWordCount大于currentMaximumCount，那么currentMaximum=thisWord"）。

我相信标准的C++unordered_map类型应该满足您的需要。这里有一个例子。