卡普·拉宾的素数和块长度
Prime Number and Block Length in Karp Rabin
我从那个站点找到了一个rabin karp代码,并更改为尝试。更改后的代码如下。您可以在hashtable.txt中看到单词及其散列值。对于下面的示例,hashtable.txt似乎是正确的。
但是当我将M(块长度)更改为150时,我得到了错误的结果。例如,在hashtable.txt中,第一行和第6行必须相同,但它们的哈希值不同。
或者当我将q(素数)更改为683303时,它也会得到错误的结果。
rabin karp算法中质数与块长度的关系是什么,产生错误结果的原因是什么?
#include<stdio.h>
#include<string.h>
#include <fstream>
#include <iostream>
// d is the number of characters in input alphabet
#define d 256
int M = 80;
/*
txt -> text
q -> A prime number
*/
using namespace std;
void writeTable(char *txt, int q)
{
ofstream myfile;
myfile.open ("hashtable.txt");
int N = strlen(txt);
int i, j;
int t = 0; // hash value for txt
int h = 1;
// The value of h would be "pow(d, M-1)%q"
for (i = 0; i < M-1; i++)
h = (h*d)%q;
// Calculate the hash value of pattern and first window of text
for (i = 0; i < M; i++)
{
t = (d*t + txt[i])%q;
}
// Slide the pattern over text one by one
for (i = 0; i <= N - M; i++)
{
myfile << t <<" ";
for (long z = i; z < M+i; z++){myfile<<txt[z];}myfile<<"n";
// Calulate hash value for next window of text: Remove leading digit,
// add trailing digit
if ( i < N-M )
{
t = (d*(t - txt[i]*h) + txt[i+M])%q;
// We might get negative value of t, converting it to positive
if(t < 0)
t = (t + q);
}
}
myfile.close();
}
/* Driver program to test above function */
int main()
{
char *txt ="abcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcde";
int q = 683303; // A prime number
writeTable(txt, q);
printf("finish");
getchar();
return 0;
}
计算
t = (d*(t - txt[i]*h) + txt[i+M])%q;
可以溢出。txt[i]
的最大值为d-1
, h
的最大值可达q-1
。所以如果(q-1)*(d-1)*d > INT_MAX
,有整数溢出的可能性。这就限制了可以安全地选择的素数的大小为INT_MAX/(d*(d-1)) + 1
。
如果q
大于此值,则对M
的可接受值提出了限制,即M
必须满足
h <= INT_MAX/(d*(d-1))
安全地防止溢出。
有q = 683303
和M = 80
,你得到h = 182084
,和
h*d*(d-1) = 182084 * 256 * 255 = 11886443520
如果int
是32位宽,就比INT_MAX
大。
如果你的int
s是32位宽,你从一开始就有溢出的例子,因为h*256*97 = 4521509888 > 2147483647
.
"块长度"是图案的长度。因为你的代码中没有任何模式,所以数字150是没有意义的,除非这是你打算使用的模式的实际长度。
哈希值必须取决于被哈希的数据和它的数量。因此,"abcde", "abcd", "abc"的哈希值很可能都不相同。
在此算法中,通过首先比较两者的哈希值,可以避免将模式与文本的相同长度部分进行不必要的比较。
如果哈希值不同,则知道两个字符序列不同,没有匹配,因此可以移动到文本中的下一个位置并重复此过程。
如果哈希值匹配,则有两个字符序列的潜在匹配,然后比较它们以查看是否存在真正的匹配。
这是该算法的主要思想,也是它比naïve实现子字符串搜索更快的原因。
在计算哈希值时,除以一个素数的目的是试图得到一个更均匀的哈希值分布。如果你选择一个很大的质数,它不会有太大的影响。如果您选择一个非常小的素数,您将减少哈希值的总数,并增加哈希匹配的几率,从而增加进行不必要的子字符串比较的几率。
- 如何在选项卡视图Qt中设置一个新项目,并保存以前的项目
- 构建可组合有向图(扫描仪生成器的汤普森构造算法)
- 在卡萨布兰卡形成编码参数的列表
- 通过选项卡的文本设置QTabWidget顺序
- phytec phyBOARD iMX-6在从闪存而不是SD卡运行qt5 opengles应用程序时表现不佳(FPS减半
- C++卡验证问题
- C++ OpenCV 卡尔曼滤波器构造函数错误
- 神经网络不学习.卡在50%
- 使用专用显卡进行 OpenGL 渲染时帧速率较低
- 在不使用系统的情况下从C++应用程序格式化 Linux 中的 SD 卡
- 在 std::getline 和 std::cin 期间卡在循环中
- 如何在 macOS 卡塔琳娜上解决此错误?
- 按钮悬停在 QT 中垂直布局的选项卡小部件中不起作用
- Visual Studio C++ 它只构建选项卡中显示的文件吗?
- 比较两个字符串后卡在无限循环中
- 编写了一个C++代码来检查表达式是否具有平衡括号并且我的代码未运行.我已经卡了一天了
- 使用拉宾·卡普进行模式搜索
- 拉宾·卡普的滚动散列
- 拉宾-卡普算法
- 卡普·拉宾的素数和块长度