我对Google的TEXT_DETECTION感兴趣,它的工作效果令人印象深刻。但似乎TEXT_DETECTION只给出了准确的结果时,文本是英语。在我的例子中,我想在一个非常狭窄的上下文中使用TEXT_DETECTION,例如,在特定语言的广告横幅上检测文本(以越南语表示)。我能在我自己的数据收集上训练这台机器以得到更准确的结果吗?以及如何实现这一点?
除了Google的TEXT_DETECTION之外,谷歌还使用Tesseract的依赖项开发了谷歌的光学字符识别软件。正如我所知,他们有不同的算法来检测文本。我使用Google和Google的TEXT_DETECTION从图片中读取文本(在越南语)。Google给出了一个很好的结果,但是Vision却没有,为什么Google没有继承Google的优势?
我想说一些关于Google文本检测的更多信息,也许这里的任何谷歌专家都可以阅读这个。就像谷歌宣布的那样,他们的TEXT_DETECTION非常棒:“尽管这张图片中的单词是倾斜的和不清楚的,但OCR正确地提取了单词和它们的位置。它甚至在主持人的T恤上选择了”灯塔“这个词。”但对我的一些照片来说,发生的事情真的很有趣。例如,在这张照片中,即使是"Kem Oxit“这个词在pic的中心也是非常大的,它没有被识别出来。或者在这张照片中,位于pic中间的红色文本"HOA CHAT NGOC越南“也没有被识别出来。文本检测算法一定有问题。
发布于 2016-10-13 20:55:41
发布于 2016-10-26 21:47:49
费马蒂奇是对的,目前不可能培训Google的TEXT_DETECTION功能。
在光学字符识别软件方面,根据该TEXT_DETECTION的特点,将其应用于Google中。为了获得更好的结果,必须验证是否有任何最佳做法适用于您的图片。Google可能有一个不同的预处理机制,在谷歌文档帮助论坛上询问这个机制会很有趣。
具有375×500像素的分辨率,第一图像不满足最佳做法中描述的640x480像素的最小分辨率要求。不过,通过将其重新标度到1024x1365像素,能够检测到“Oxit”这个词。在将第二幅图像重新标度到OCR推荐的1024x768像素进行字符识别之后,API再次成功地检测到"HOA越南“字样。请注意,今后这种类型的问题将更适合于公共问题跟踪器,因为它可能需要更多细节才能重现您的准确错误。
https://stackoverflow.com/questions/40013910
复制相似问题