我正在使用Tesseract做一些截图的OCR。截图中的人物出现在raster fonts中。但是Tesseract需要True Type Font文件来进行培训。
我可以在Windows/Fonts文件夹中找到许多真正的字体文件。我想知道有没有光栅字体的?
发布于 2015-05-11 16:29:21
“光栅字体”并不是真的: OpenType (它的truetype是两种内部编码之一)是真正的字体,符合非常详细、权威的规范,但是光栅字体基本上是“没有单一的规范,只要程序知道如何解压所做的东西,你就可以发明任何你想要的东西”。定义光栅/位图字体的方法有很多种,它们基本上都是表单bitmap image + header that says which letter maps to which x/y/w/h rectangle in the image。
OCR不想与他们合作,因为位图字体不能缩放:最简单的原因是“没有正式的位图字体规范”,但即使有,如果你试图将位图字体与OCR结果相匹配,那么整个页面甚至比位图字体所需的宽度或高度差1像素,就不会导致文本匹配。Bbitmap字体被编码成固定的字体大小(通常只有一种,有时不止一种,但仍然严格固定),因此如果扫描文档的大小不完全正确,所有像素都不会完全重叠,导致像O和V这样的东西以同样的可靠性匹配V和O,因为一个微小的像素垂直移动可以使V和O与相同数目的错误像素重叠。
另一方面,OpenType字体使用矢量轮廓,并且可以与各种非常成功的算法进行最佳匹配。除非您扫描的文档是“大幅度太小”向量转换将产生90%-100%匹配,没有任何问题。
相反,你要做的是点击MyFon.com的什么字体!,然后插入扫描文档中的一串,其中可能有两句,然后让它告诉你哪种字体最适合它,然后简单地使用该字体进行OCR培训。超级有效!
https://stackoverflow.com/questions/30163205
复制相似问题