最大编辑距离和建议基于词频
Max edit distance and suggestion based on word frequency
我需要一个具有以下规格的拼写检查器:
- 非常可伸缩。
- 能够为建议的单词设置最大编辑距离。
- 根据提供的单词频率(最常见的单词优先)获得建议。
我看了看Hunspell:
我在男人身上找到了参数MAXDIFF,但似乎没有像预期的那样工作。也许我用错了方法
文件 t。等于off :
MAXDIFF 1
文件 dico。dic :
5
rouge
vert
bleu
bleue
orange
NHunspell.Hunspell h = new NHunspell.Hunspell("t.aff", "dico.dic");
List<string> s = h.Suggest("bleuue");
返回相同的东西t.aff
是否为空:
bleue
bleu
我们决定使用Apache Solr
,这正好满足了我们的需求。
解释清楚http://wiki.apache.org/solr/SpellCheckComponent
maxdiff = 1应该返回几个,但仍然可以返回多个。
即使maxdiff为零也可以给出多个结果,但它应该降低变化。这取决于n元。尝试maxdiff的结果小于0,但这仍然不能保证您将得到一个建议。
对于您对最频繁的单词进行排序的需求,Google ngram语料库是公开可用的。
相关文章:
- 为什么两个不同的未命名名称空间可以共存于一个cpp文件中
- c++r值引用应用于函数指针
- 如果编译的源代码是特定于它编译的硬件的,我们如何分发它
- 如何仅使用对象名称打印特定于对象的成员
- 相当于LocaleMatcher的ICU4C
- 等<thing>效于char32_t
- 类似于strcat()的函数出现问题
- 如何将C++闭包与变量参数同时重用——类似于JavaScript
- 算术运算的结果类似于:C浮点变量中的1/3
- 相当于 pybind11 中的 boost::p ython py::scope().attr()
- 如何将记忆应用于此递归函数?
- 对对应于矩阵的行和列的对向量进行排序
- OpenGL - 在 NDC 中计算位置适用于着色器,但不适用于'regular'程序
- 词频程序 - 文件输入太大?
- 比较一个链接列表与另一个黑名单与词频列表C++
- 链表词频和排序C++
- 用c++从矢量中获取词频
- 使用c++映射计算词频.我做错了什么?
- 字符串的词频(即文件I/O)
- 最大编辑距离和建议基于词频