对列表中最有可能由列表顶部的人说出的积极单词和列表末尾很少说出的单词进行排序

Sorting list of positive words that most likely spoken by people at the top of list and the rarely spoken at end of list

本文关键字:列表 排序 单词进 单词 顶部 有可能      更新时间:2023-10-16

我有一个积极的单词列表,这个列表有1000多个单词。有没有什么方法可以将列表中的单词从最常说的单词到很少说的单词进行排序?你知道在C++或C中是怎么做的吗?如果我有静态的数百万csv tweets文件和positive.txt文件,这能进行比较和排序吗?

这被称为自组织列表。假设你有一个数据集,Knuth给出了两种算法:

  • 每次你找到一个用过的词,就把它和列表中的前一个词交换(如果有的话)

  • 每次你找到一个用过的单词,就把它和列表中的前一项交换

处理完数据集后,您的列表应该或多或少地按照使用频率顺序进行自我组织。