首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >搜索文件中最常见的模式

搜索文件中最常见的模式
EN

Stack Overflow用户
提问于 2011-07-24 07:50:04
回答 3查看 2.3K关注 0票数 4

如何在文本文件中找到最常见的模式。你会使用什么数据结构?在这里,一个模式不是一个单词,而是一个单词序列。例如,“这是一个”可能是文件中经常发生的模式。

后续问题:

  • 如果文件非常大(在GBs中)怎么办?
  • 如果文件包含多种语言(英语、日语等)的文本,该怎么办?

PS:我知道使用哈希表或BST可以相对容易地找到最常见的单词。只是想不出我们怎么能找到多字串。

EN

Stack Overflow用户

发布于 2011-07-24 19:52:12

看看百万分率 (通过部分匹配预测)或Cleary和Teahan的PPM*方法。它用于文本压缩。尽管您不需要压缩,但任务是相同的--使用高效的数据结构以非常有效的方式查找大多数字符的公共序列。看看上面Cleary & Teahan的论文,看看他们是如何做到这一点的--这是一个非常好的算法。我敢打赌,也有一些开源实现。

票数 1
EN
查看全部 3 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6805596

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档