首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >OCR最好的开源拼写检查器?

OCR最好的开源拼写检查器?
EN

Stack Overflow用户
提问于 2017-02-20 07:27:50
回答 2查看 2.7K关注 0票数 7

我有大量19世纪的英文OCRed文档,我想通过使用上下文拼写检查器来清理一些错误,比如http://norvig.com/spell-correct.html的Peter Norvig提出的那个。我的主要目标是能够使用概率模型(以及ocred文本数据和适当的大型字典)来纠正拼写错误的单词。

我很高兴使用Norvig在他的网站上提供的代码并对其进行改进,但在我这样做之前,我想问一下是否有开源的解决方案。Norivg自己建议看一下aspell,但我不认为aspell是一个上下文拼写检查器,我担心它在OCR纠错方面可能工作得不是很好。

EN

回答 2

Stack Overflow用户

发布于 2019-02-10 16:35:35

那么,你正在寻找一个拼写检查器,当有一个短语或单词不理解时,它将替换最概率的选择?这在19c文本上似乎不是一个好主意,除非你有大量这样的文本语料库,这些文本已经经过了手工拼写检查。过去很常见但现在很少见的单词将在你不知情的情况下被取代。我敢说,你可能会发现一个上下文拼写检查器,训练现代语言,但却被你的19c词法夸大了。☺

如果你有这样一个语料库,或者你准备创建一个语料库,有一个基于Python的强大的光学字符识别和分析工具,称为OCRopus。它使用了自然语言处理、神经网络和许多其他时髦词汇--我想我在待办事项列表上看到了“深度学习”。它似乎不容易使用,尽管我承认我自己从来没有尝试过。这似乎需要在命令行和Python编程方面的技能。如果你仍然没有被吓倒,这可能就是你正在寻找的。

另一方面,如果您正在寻找更简单的程序,请考虑使用带有标准拼写检查器的程序。例如,gImageReader可以读取你的PDF文件,对它们进行光学识别,并允许你纠正和添加它不认识的单词。我建议在搜索更复杂的东西之前,至少尝试一下简单的拼写检查器。

票数 0
EN

Stack Overflow用户

发布于 2017-08-10 02:51:49

不是开源的,但你可能想看看AfterScan。它提供了OCR特定错误的批处理和可视化编辑。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42334193

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档