c/c++中的主题挖掘算法

Topic mining algorithm in c/c++

本文关键字:算法 c++      更新时间:2023-10-16

我正在使用c++进行文章主题提取算法。首先,我写了代码来删除文章、命题等单词。

然后剩下的单词存储在一个字符数组中:char *excluded_string[50] = { 0 };

    while ((NULL != word) && (50 > i)) {
    ch[i] = strdup(word);
    excluded_string[j]=strdup(word);
    word = strtok(NULL, " ");
    skp = BoyerMoore_skip(ch[i], strlen(ch[i]) );
        if(skp != NULL)
        {
            i++;
            continue;
        }
j++;

当ch[i]不是文章或类似的注释时,skp为NULL。此函数检查任何单词是否属于文章或命题。。。etc

现在在末尾,ex.[]包含一组必需单词。现在我想要这个数组中每个单词的出现次数,以及出现次数最多的那个单词之后的出现次数。如果不止一个的话。

我应该使用什么逻辑

我的想法是:取和二维数组。第一列将有单词。第二列I可用于存储计数值。

然后,对于将该字发送到数组的每个字,以及对于该字的每次出现,增加计数值,并将该字的计数值存储在第二列中。

但这既昂贵又复杂。

还有其他想法吗?

如果你想统计数组中每个单词的出现次数,那么你可以做的不比O(n)好(即一次遍历数组)。但是,如果你试图将单词计数存储在二维数组中,那么你每次都必须进行查找,看看单词是否已经存在,这可能会很快变成O(n^2)。

诀窍是使用哈希表来进行查找。当你逐步浏览单词列表时,你会增加哈希表中右侧的条目。每次查找都应该是O(1),所以只要有足够多的单词来抵消哈希算法和内存使用的复杂性,它就应该是有效的(例如,如果你处理的单词少于10个,就不要麻烦了)。

然后,完成后,只需迭代哈希表中的条目,即可找到最大值。事实上,我可能会在计算单词的时候记录下来,这样就没有必要在后面做了("如果thisWordCount大于currentMaximumCount,那么currentMaximum=thisWord")。

我相信标准的C++unordered_map类型应该满足您的需要。这里有一个例子。