问搜索文件中最常见的模式
EN

Stack Overflow用户

提问于 2011-07-24 07:50:04

回答 3查看 2.3K关注 0票数 4

如何在文本文件中找到最常见的模式。你会使用什么数据结构？在这里，一个模式不是一个单词，而是一个单词序列。例如，“这是一个”可能是文件中经常发生的模式。

后续问题：

如果文件非常大(在GBs中)怎么办？
如果文件包含多种语言(英语、日语等)的文本，该怎么办？

PS:我知道使用哈希表或BST可以相对容易地找到最常见的单词。只是想不出我们怎么能找到多字串。

data-structures

algorithm

Stack Overflow用户

发布于 2011-07-24 19:52:12

看看百万分率 (通过部分匹配预测)或Cleary和Teahan的PPM*方法。它用于文本压缩。尽管您不需要压缩，但任务是相同的--使用高效的数据结构以非常有效的方式查找大多数字符的公共序列。看看上面Cleary & Teahan的论文，看看他们是如何做到这一点的--这是一个非常好的算法。我敢打赌，也有一些开源实现。

票数 1

查看全部 3 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6805596

复制

相似问题

问搜索文件中最常见的模式
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问搜索文件中最常见的模式EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问搜索文件中最常见的模式
EN