用于网页排名和搜索引擎的c++库

C++ libraries for web ranking and search engines

本文关键字:c++ 搜索引擎 网页 用于      更新时间:2023-10-16

谁能给我介绍一些包含网页排名算法的库,如PageRank, HITS?谢谢你

我猜你指的是在原始PageRank论文中发布的规范PageRank算法。现在人们用"PageRank"来指代当前实际的谷歌搜索算法。

如果真的是这样的话,PageRank的实现并不难找到和使用。通过Google搜索,您可以找到大量的实现。例如,python中的一个。

对于HITS算法,维基百科中有伪代码。还有一个Perl实现。

我还建议CLucene让你开始胡闹。

除非你为谷歌工作,否则没有很多好的方法可以找出他们页面排名算法的细节…这是不时变化的。维基百科概述了一些基础知识:

http://en.wikipedia.org/wiki/PageRank

其他人写冗长的文章:

http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/

如果您对编写搜索引擎所涉及的各种技术感兴趣,这里有几个主题。例如,有"网络爬行"以及如何编写访问网站并获取其内容的程序……并决定何时再次访问这些网站,看看它们是否已经改变:

http://en.wikipedia.org/wiki/Web_crawler

一旦你的机器上有一堆数据要分析和搜索,要研究的主题领域被称为"信息检索"(或"IR"):

http://en.wikipedia.org/wiki/Information_retrieval

这是一门相当新的科学,但在这方面已经做了很多工作。维基百科有一个"免费搜索引擎软件"列表:

http://en.wikipedia.org/wiki/Category Free_search_engine_software

我建议,如果你是新手,那么最好从弄清楚如何使用Lucene这样的东西在你的网站上提供一个搜索框开始。然后深入研究,看看它是如何工作的。它已经被移植到c++,如果这对你很重要的话:

http://clucene.sourceforge.net/