使用 C/C++ 中的二叉搜索在日志文件中搜索日期时间

Search a datetime in a log file using Binary Search in C/C++

本文关键字:搜索 日志 文件 时间 日期 C++ 使用      更新时间:2023-10-16

>我有一些日志文件是用log4cpp格式编写

的-

-根据log4cpp的性质,此文件按每行开头的日期时间排序

假设格式类似于

2012-09-02 17:17:36.891 This is line 1 in file 2   
...
2013-08-05 14:17:35.344 This is line 607082 in file 2
2013-08-05 14:17:36.891 This is line 607083 in file 2
...
2013-09-05 14:27:36.891 This is line 934594 in file 2

现在我正在编写一个程序来解析这些文件并尝试快速找到一行。

例如,如果我运行

./my_program -start_time "2013-08-05 14:17:36" file_2.txt

我希望这个程序可以因此返回607083。

此外,-start_time可以基于其他粒度,如"2013-08-05 14:17:35.899"或"2013-08-15",但我期待最接近的结果。

我可以逐行遍历此文件,并比较每行开头的时间戳(只需使用字符串比较),但这需要 O(N) 时间。我已经实现了它,发现如果在开始时有数百万行要跳过,它真的很慢。

我想知道我们是否可以为此使用二叉搜索。我认为这是返回最接近结果的最佳方式,只需要 O(lgN) 时间

是的,你可以。这是按日期排序的日志。为什么不采取第一行和最后一行,这应该是最近和最后一个最近的日期。

您可以创建一个将日期转换为秒的函数。 在第一次调用中,转到日志的中间,检查您的日期是更大还是更小,依此类推......(二叉搜索)

希望这有所帮助,并希望我对这将如何工作的解释是清楚的

当你在Unix/Posix下运行时,你可以mmap()整个文件并在内存上运行(并避免lseek()和朋友)。

因此,您会得到一个"char *logbuffer = mmap(...)"指针,并且可以在那里执行二进制搜索。