如何在文本文件中找到最常见的模式。你会使用什么数据结构?在这里,一个模式不是一个单词,而是一个单词序列。例如,“这是一个”可能是文件中经常发生的模式。
后续问题:
PS:我知道使用哈希表或BST可以相对容易地找到最常见的单词。只是想不出我们怎么能找到多字串。
发布于 2011-07-24 19:52:12
看看百万分率 (通过部分匹配预测)或Cleary和Teahan的PPM*方法。它用于文本压缩。尽管您不需要压缩,但任务是相同的--使用高效的数据结构以非常有效的方式查找大多数字符的公共序列。看看上面Cleary & Teahan的论文,看看他们是如何做到这一点的--这是一个非常好的算法。我敢打赌,也有一些开源实现。
https://stackoverflow.com/questions/6805596
复制相似问题