查询相似句子的有效方法

efficient way to query similar sentences

本文关键字:有效 方法 句子 相似 查询      更新时间:2023-10-16

我有一个任务需要从记忆中找到类似的句子。任务读取的输入文件包含:

a b c
c d e f
f h g w
.............

然后,给定一个新的查询,ex

h g w

回报应该是

f h g w

这是输入文件中包含所有查询词的行。

我想知道如何有效地存储输入句子,以便可以有效地将其用于查询。

您可以将单词字典存储为字符串向量:

vector<string> dict;

所以在你的例子中,你会把"a""b""c"等放在字典里。

然后你可以将一个句子表示为整数的向量,其中整数是字典中单词的索引:

vector<int> sentence;

例如,第一句将是{0, 1, 2}

您可以将所有句子存储在一个向量中:

vector<vector<int>> sentences;

此时,检查子短语是否在短语中与子字符串搜索算法完全相同(前提是您还将短语查询转换为整数向量)。