在文件中搜索字符串最快的方法是什么?
What is the fastest way to search strings in a file?
我有一个非常大的文件(100 MB),其中包含字符串,我正在搜索一种高性能的方式来查询文件中是否有给定的字符串。整行应该与输入字符串进行比较。
我的想法是一个程序加载文件,然后,它可以查询字符串是否存在。
void loadfile(string filename);
bool stringAvailable(string str);
loadfile()函数不需要很快,因为它偶尔会被调用。但是stringAvailable()需要尽可能提高性能。
现在我已经试过了:
1。让linux命令行工具为我做这项工作:
system("cat lookup | grep "^example$"");
=>不是很快。
2。有一个MySQL数据库,而不是一个文件(我尝试MyISAM和InnoDB),并查询它像SELECT count(*) FROM lookup WHERE str = 'xyz'
=>非常快,但还可以更快。此外,最好有一个不依赖于DBMS的程序。
3。具有字符串数组(string[] ary
),并在for()循环中比较所有值。
=>不是很快。我想它可以用哈希表来优化,我目前正在试验。
是否有其他可能使过程更高效?
将文件中的所有行存储在std::unordered_set
中。
#include <iostream>
#include <unordered_set>
#include <string>
int main(int argc, char **argv)
{
std::unordered_set<std::string> lines;
lines.insert("line 1");
lines.insert("line 2");
std::string needle = argv[1];
if (lines.find(needle) != lines.end())
std::cout << "foundn";
else
std::cout << "NOT foundn";
return 0;
}
首先将文件装入内存。我想你已经够多了。
然后我会尝试在内存中进行线性搜索。如果你开始寻找第一个字符,停在那里,寻找你正在寻找的连续字符。如果两个连续字符不匹配,继续从第一个字符开始搜索,依此类推。
文件是否必须有模式或在某些条件下进行排序?如果是这样的话,你可能有机会进一步优化。
也可以尝试像这样使用字符串引用:
void loadfile(const string &filename);
bool stringAvailable(const string &str);
这样可以避免不必要的复制。
相关文章:
- 为不同配置设置MSVC_RUNTIME_LIBRARY的正确方法是什么
- 在C++中,将大的无符号浮点数四舍五入为整数的最佳方法是什么
- 实现无开销push_back的最佳方法是什么
- C++从另一个类访问公共静态向量的正确方法是什么
- 在 c++ 中拥有一组结构的正确方法是什么?
- 通过JNI传递数据数组的最快方法是什么
- 用常见虚拟函数实现的任意组合来实现派生类的正确方法是什么
- 使用不同的CRT将新的C++代码与旧的(二进制)组件隔离开来的最佳方法是什么
- 当无法使用模板和宏时,生成类型变体C++代码的最简单方法是什么?
- 在另一个类视图中添加最多2个图表的正确方法是什么
- 在C++中样板"冷/never_inline"错误处理技术的最佳方法是什么?
- 在 c++ 中对类中的 c 字符串动态数组进行排序的最佳方法是什么?
- 在C++中包含原型文件的正确方法是什么?
- 在 OpenCV C++ 中估计基本矩阵之前对相应点进行归一化的正确方法是什么?
- 在PostgreSQL中根据它们的ID选择大量行的最快方法是什么?
- 在OSX上使用CMake将Adobe的XMP工具包构建为共享库的最简单方法是什么?
- 将一系列整数放入类的最佳方法是什么?
- 从长整整转换为uint64_t的推荐方法是什么?
- 将此布尔值传递给此函数的最有效方法是什么?
- 通过比较C++中的行在 txt 文件中搜索的最简单方法是什么?