文章/答案/技术大牛

发布

社区首页 >问答首页 >OCR最好的开源拼写检查器？

问OCR最好的开源拼写检查器？
EN

Stack Overflow用户

提问于 2017-02-20 07:27:50

回答 2查看 2.7K关注 0票数 7

我有大量19世纪的英文OCRed文档，我想通过使用上下文拼写检查器来清理一些错误，比如http://norvig.com/spell-correct.html的Peter Norvig提出的那个。我的主要目标是能够使用概率模型(以及ocred文本数据和适当的大型字典)来纠正拼写错误的单词。

我很高兴使用Norvig在他的网站上提供的代码并对其进行改进，但在我这样做之前，我想问一下是否有开源的解决方案。Norivg自己建议看一下aspell，但我不认为aspell是一个上下文拼写检查器，我担心它在OCR纠错方面可能工作得不是很好。

ocr

spell-checking

aspell

回答 2

Stack Overflow用户

发布于 2019-02-10 16:35:35

那么，你正在寻找一个拼写检查器，当有一个短语或单词不理解时，它将替换最概率的选择？这在19c文本上似乎不是一个好主意，除非你有大量这样的文本语料库，这些文本已经经过了手工拼写检查。过去很常见但现在很少见的单词将在你不知情的情况下被取代。我敢说，你可能会发现一个上下文拼写检查器，训练现代语言，但却被你的19c词法夸大了。☺

如果你有这样一个语料库，或者你准备创建一个语料库，有一个基于Python的强大的光学字符识别和分析工具，称为OCRopus。它使用了自然语言处理、神经网络和许多其他时髦词汇--我想我在待办事项列表上看到了“深度学习”。它似乎不容易使用，尽管我承认我自己从来没有尝试过。这似乎需要在命令行和Python编程方面的技能。如果你仍然没有被吓倒，这可能就是你正在寻找的。

另一方面，如果您正在寻找更简单的程序，请考虑使用带有标准拼写检查器的程序。例如，gImageReader可以读取你的PDF文件，对它们进行光学识别，并允许你纠正和添加它不认识的单词。我建议在搜索更复杂的东西之前，至少尝试一下简单的拼写检查器。

票数 0

Stack Overflow用户

发布于 2017-08-10 02:51:49

不是开源的，但你可能想看看AfterScan。它提供了OCR特定错误的批处理和可视化编辑。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42334193

复制

相似问题

问OCR最好的开源拼写检查器？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问OCR最好的开源拼写检查器？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问OCR最好的开源拼写检查器？
EN