sqlite中的文本挖掘

text mining in sqlite

本文关键字:文本挖掘 sqlite      更新时间:2023-10-16

我有sqlite数据库,需要在其中找到最常见的单词。例如,

文本
桌子椅子地板
桌子椅子

解决方案需要

词数量
表,3
椅子,2
地板 1

数据库很大(几个Gb)。我正在寻找SQL的解决方案。也可能使用c++或其他方法

Sqlite没有任何命令,这将允许从单个字符串生成多行(并且不能轻易拥有;这样的事情需要"unpack"扩展到SQL)。因此,您需要一个应用程序代码来将注释拆分为单词。那么您可以创建一个表,在其中将每个单词插入到单独的行中,然后再插入select word, count(rowid) from words group by word,或者您可以在应用程序中使用哈希映射直接计数单词。

http://www.sqlite.org/fts3.html

查看Fts4aux -直接访问全文索引部分。