我有大量19世纪的英文OCRed文档,我想通过使用上下文拼写检查器来清理一些错误,比如http://norvig.com/spell-correct.html的Peter Norvig提出的那个。我的主要目标是能够使用概率模型(以及ocred文本数据和适当的大型字典)来纠正拼写错误的单词。
我很高兴使用Norvig在他的网站上提供的代码并对其进行改进,但在我这样做之前,我想问一下是否有开源的解决方案。Norivg自己建议看一下aspell,但我不认为aspell是一个上下文拼写检查器,我担心它在OCR纠错方面可能工作得不是很好。
发布于 2019-02-10 16:35:35
那么,你正在寻找一个拼写检查器,当有一个短语或单词不理解时,它将替换最概率的选择?这在19c文本上似乎不是一个好主意,除非你有大量这样的文本语料库,这些文本已经经过了手工拼写检查。过去很常见但现在很少见的单词将在你不知情的情况下被取代。我敢说,你可能会发现一个上下文拼写检查器,训练现代语言,但却被你的19c词法夸大了。☺
如果你有这样一个语料库,或者你准备创建一个语料库,有一个基于Python的强大的光学字符识别和分析工具,称为OCRopus。它使用了自然语言处理、神经网络和许多其他时髦词汇--我想我在待办事项列表上看到了“深度学习”。它似乎不容易使用,尽管我承认我自己从来没有尝试过。这似乎需要在命令行和Python编程方面的技能。如果你仍然没有被吓倒,这可能就是你正在寻找的。
另一方面,如果您正在寻找更简单的程序,请考虑使用带有标准拼写检查器的程序。例如,gImageReader可以读取你的PDF文件,对它们进行光学识别,并允许你纠正和添加它不认识的单词。我建议在搜索更复杂的东西之前,至少尝试一下简单的拼写检查器。

发布于 2017-08-10 02:51:49
不是开源的,但你可能想看看AfterScan。它提供了OCR特定错误的批处理和可视化编辑。
https://stackoverflow.com/questions/42334193
复制相似问题