c/c++中的主题挖掘算法
Topic mining algorithm in c/c++
我正在使用c++进行文章主题提取算法。首先,我写了代码来删除文章、命题等单词。
然后剩下的单词存储在一个字符数组中:char *excluded_string[50] = { 0 };
while ((NULL != word) && (50 > i)) {
ch[i] = strdup(word);
excluded_string[j]=strdup(word);
word = strtok(NULL, " ");
skp = BoyerMoore_skip(ch[i], strlen(ch[i]) );
if(skp != NULL)
{
i++;
continue;
}
j++;
当ch[i]不是文章或类似的注释时,skp
为NULL。此函数检查任何单词是否属于文章或命题。。。etc
现在在末尾,ex.[]包含一组必需单词。现在我想要这个数组中每个单词的出现次数,以及出现次数最多的那个单词之后的出现次数。如果不止一个的话。
我应该使用什么逻辑
我的想法是:取和二维数组。第一列将有单词。第二列I可用于存储计数值。
然后,对于将该字发送到数组的每个字,以及对于该字的每次出现,增加计数值,并将该字的计数值存储在第二列中。
但这既昂贵又复杂。
还有其他想法吗?
如果你想统计数组中每个单词的出现次数,那么你可以做的不比O(n)好(即一次遍历数组)。但是,如果你试图将单词计数存储在二维数组中,那么你每次都必须进行查找,看看单词是否已经存在,这可能会很快变成O(n^2)。
诀窍是使用哈希表来进行查找。当你逐步浏览单词列表时,你会增加哈希表中右侧的条目。每次查找都应该是O(1),所以只要有足够多的单词来抵消哈希算法和内存使用的复杂性,它就应该是有效的(例如,如果你处理的单词少于10个,就不要麻烦了)。
然后,完成后,只需迭代哈希表中的条目,即可找到最大值。事实上,我可能会在计算单词的时候记录下来,这样就没有必要在后面做了("如果thisWordCount大于currentMaximumCount,那么currentMaximum=thisWord")。
我相信标准的C++unordered_map
类型应该满足您的需要。这里有一个例子。
- 为什么这个运算符<重载函数对 STL 算法不可见?
- 基于ELO的团队匹配算法
- C++选择排序算法中的逻辑错误
- 有没有办法将谓词中的元素偏移量传递给 std 算法?
- C++A*算法并不总是在路径中具有目标节点
- 排序算法c++
- 构建可组合有向图(扫描仪生成器的汤普森构造算法)
- 算法问题:查找从堆栈中弹出的所有序列
- 下面是排序算法O(n)吗
- KMP算法和LPS表构造的运行时间
- 为什么我的排序算法会更改数组值
- 求最大元素位置的分治算法
- 具有非整数边容量的最大流量的Dinic算法
- 到连接组件算法的问题(递归)
- STL算法函数在多个一维容器上的使用
- 读取最后一行代码算法 - c++ 时出现问题
- 括号更改 O(n) 算法
- std::unordered_map 搜索算法是如何实现的?
- 如何实现高效的算法来计算大型数据集的多个不同值?
- 如何在 Mac 上使用 c++17 并行标准库算法?