一种总结内容的算法

An algorithm for summarizing content

本文关键字:算法 一种      更新时间:2023-10-16

我正在考虑总结我计划建立的网站上的内容。比起一页又一页的内容,我更愿意为他们提供每个主题的摘要。

关于如何做到这一点,我有一些想法,主要是关于找到最常见的单词和写一个简短的形式。这确实有帮助,即使少一个字符也会有很大的不同。

有没有人能给我一些建议或指出正确算法的正确来源?我知道我必须自己开发算法,但我在开始之前做了一些研究。

我认为这是对不同摘要方法的一个很好的概述:http://en.wikipedia.org/wiki/Automatic_summarization

NLTK工具箱也应该是非常有用的起点:http://nltk.org/,它已经被用来构建摘要器,例如https://github.com/amsqr/NaiveSumm