在Tesseract 3.05中，我可以将字形表示为框文件中的两个字符(NA

在Tesseract 3.05中，将字形表示为框文件中的两个字符是指使用两个字符来表示一个字形的边界框。这种表示方法常用于OCR（光学字符识别）任务中，用于标记文本中的字符位置。

具体来说，框文件是一个文本文件，每一行表示一个字符的边界框信息。每行包含了字符的左上角和右下角的坐标，通常以像素为单位。而将字形表示为两个字符，则是将一个字符的边界框分为两个部分，每个部分用一个字符来表示。

这种表示方法的优势是可以更精确地标记字符的位置，尤其是对于一些字形较为复杂的字符。同时，它也可以提供更多的信息，例如字符的倾斜角度、宽高比等。

在Tesseract 3.05中，可以使用以下方式将字形表示为框文件中的两个字符：

首先，需要使用OCR引擎对文本进行识别，将文本转换为字符序列。
然后，根据字符序列，将每个字符的边界框信息写入框文件中。可以使用一些编程语言（如Python）来实现这一步骤。

以下是一个示例的框文件内容：

char1 10 20 30 40
char2 40 20 60 40

其中，每一行表示一个字符的边界框信息。例如，第一行表示字符"char1"的边界框左上角坐标为(10, 20)，右下角坐标为(30, 40)。

对于Tesseract 3.05，腾讯云提供了一些相关产品和服务，可以帮助您进行OCR任务的开发和部署。具体推荐的产品和产品介绍链接如下：

腾讯云OCR文字识别：https://cloud.tencent.com/product/ocr
- 该产品提供了丰富的OCR功能，包括文字识别、身份证识别、银行卡识别等，可以满足各种OCR需求。

请注意，以上推荐的腾讯云产品仅供参考，具体选择还需根据实际需求和情况进行评估。

在Tesseract 3.05中，我可以将字形表示为框文件中的两个字符(NA

ocr、tesseract、training-data

我使用tesseract 3.05的原因超出了我的控制范围。我正在使用源文件训练引擎来检测这种独特的字体。我在生成方框文件时的问题，因为一些字母在角落接触(即，字形之间没有明显的中断)，它会将它们检测为一个字形而不是两个单独的字形。例如，它有时会与N

浏览 7提问于2018-08-09得票数 0

1回答

字形到unicode字符串的转换

winapi、fonts、gdi、glyph

给定特定字体的字形索引，我需要获取字形的unicode转换。为了构建字形到unicode的转换，我对整个unicode范围使用GetGlyphIndices，并根据结果构建反向转换(字形到unicode字符映射)。但是，这为我提供了从单个字形到单个unicode字符的转换，我可以看到在

浏览 4提问于2014-06-19得票数 0

1回答

能否更改OCRed pdf中的字体输出？

fonts、pdf、evince、ocr、tesseract

跟进如何OCR一个pdf文件和获得的文本存储在pdf？，我成功地制作了OCRed pdf页面。当使用pdf三明治启动pdf页的OCR时，tesseract生成一个页面包含没有任何可用符号的字体(他们将其命名为GlyphLessFont

浏览 0提问于2016-08-27得票数 5

1回答

解析PDF文件并输出单个字符位置

parsing、pdf、svg、pdftotext

在第三步中，将结果框进行比较，将每个字符分配为一个单词，希望数字匹配。在这种情况下，映射失败，因为一旦转换到svg，我就不知道哪个字符包含在哪个字形中。在许多字体中，可以将多个字符连接起来，从而产生一个单一的字形。在这种情况下，字符框

浏览 1提问于2019-05-16得票数 0

回答已采纳

2回答

Tesseract OCR无法正确训练图像

c++、opencv、tesseract

我在训练Tesseract OCR时遇到了以下问题。我使用的是windows版的Tesseract 3.02。我有一个要训练的字符集。C++程序还为添加的每个字符生成方框文件。我已经使用Tesseract wiki上提到的box编辑器工具验证了Box文件和图像。这些文件是正

浏览 4提问于2015-12-29得票数 2

3回答

R-用NA替换特定值内容

r、plyr、missing-data

我有一个相当大的数据框，它有多个"-“，表示丢失的数据。数据框由多个Excel文件组成，这些文件不能使用"na.strings =“或其他函数，因此我必须使用"-”表示法导入它们。如何将数据框中的所有"-“替换为NA /缺失的值？数据框

浏览 0提问于2018-03-24得票数 0

回答已采纳

2回答

在操作系统中字符集和字体有什么区别？

fonts、operating-system、character

我想知道在操作系统中字符集和字体有什么不同吗？我知道字符集将字符集映射到它们的整数值，但是当字体出现在场景中时，我有一种模糊的感觉。。我想知道它们是如何联系在一起的？

浏览 5提问于2013-01-08得票数 2

回答已采纳

1回答

“失踪字形”-方框的编码

unicode、fonts

当文本框、浏览器或其他程序无法显示某个字符或该字符无效的unicode时，将绘制一个白色方框字符来表示缺失的字形。我假设这个方框字形本身就是一个Unicode字符，因此我正在寻找它的代码点，以便我可以使用它。是否有人知道使用哪个代码点，或者如果我的假设是错误的</em

浏览 0提问于2014-05-26得票数 3

回答已采纳

1回答

预先知道字体的图像

fonts、ocr

我需要检索大量的旧数据，这些数据是作为一系列图像存储的。它们都有相同的背景和文字颜色，都使用相同字体大小的Verdana。就像这样：我尝试的是计算列中的像素，并将单个字形匹配到以前“编码”的字形数据库中。工作得很好，但有两个主要问题 ( 1)注意--为了分离字形，我检查是否在<em

浏览 1提问于2017-01-09得票数 0

1回答

如何获取字符范围

javascript、fonts、svg、unicode-string、xml-entities

我即将导入SVG字体与Javascript，以便能够动画甚至单个字母。因此，我将字形存储在一个Javascript对象中，其中字形的Unicode值定义键，字形本身成为值。因此，当我从给定的字符串创建文本时，我使用字符串中的每个字符来获取合适的字形。表示法<

浏览 3提问于2012-03-19得票数 1

1回答

FormattedText.BuildGeometry丢弃字符

c#、.net、wpf

我正在尝试使用FormattedText.BuildGeometry来确定字符的布局，以便确定鼠标的逻辑位置。在我的上下文中，FormattedText可以被假设为一行-我应该获得一个包含一个子对象的几何体组，其中每个字符都有一个子几何体。这是正确的，除了对于字符"f“和"t”而言，在FormattedText的文本中

浏览 1提问于2012-02-24得票数 2

回答已采纳

1回答

训练Tesseract标记图标

python-tesseract

我试图为Tesseract 4.0创建培训数据，以识别屏幕截图中的图标(如，注释、共享、保存)。这是一个示例截图：我想对Tesseract进行微调，以实现以下输出：评论29行为行为以下2CommentBookmark：Arrow: Share 但是，最终的训练数据没有按我</

浏览 1提问于2019-09-18得票数 2

回答已采纳

1回答

在什么情况下，一个字体每个unicode字符可以有多个字符，这是如何处理的？

svg、unicode、fonts

我一直在阅读SVG字体的规范，我偶然发现了字形的名字。建议字形名称在字体中是唯一的。字形名称可用于在Unicode字符编号不能提供足够信息以访问正确的字形的情况下使用，例如每个Unicod

浏览 1提问于2017-03-20得票数 3

回答已采纳

3回答

为什么火狐和Chrome呈现"ಠ_ಠ“(U+0CA0)是不同的，即使我在UTF-8上设置了两者？

unicode、character-encoding、reddit

有问题的字符是ಠ (；ಠ)。以下是三个截图：适用于Mac的Firefox 7用于Windows的Firefox >4我尝试过的所有浏览器都使用UTF-8编码。这里是copy-pasted：ಠ_ಠ，但我不知道您是如何看到它的。

浏览 2提问于2011-12-13得票数 2

回答已采纳

1回答

TrueType字符字形数据的栅格化

fonts、rendering、truetype、raster、glyph

我有一个字符的字形数据来自TrueType字体文件中的glyf表。0209225523736332020510640176643215663166476631192352121217752161317752241117752161516176521841247641403

浏览 2提问于2012-04-26得票数 4

回答已采纳

2回答

在tesseract框文件中，第五列的含义是什么？

tesseract

在Tesseract box文件培训期间，我发现需要编写一个脚本来移动其中的一些框。我打开一个方框文件来确定哪一列对应于X/Y/W/H，并发现了第五列。Tesseract wiki没有提供任何解释，在"Make文件“部分中给出的示例只包含第五列中的零。我受过训练的

浏览 6提问于2017-04-19得票数 0

回答已采纳

2回答

如何从图像生成tiff/box文件以在Windows中训练Tesseract

windows、machine-learning、ocr、tesseract、training-data

我正在尝试在Windows中训练Tesseract，为此我需要一对tiff/box文件，我试图使用jTessBoxEditor创建它，但它不接受图像作为输入。我也尝试过boxFactory，但它不能正常运行。有没有人知道从图像中创建配对的最佳工具是什么？谢谢

浏览 0提问于2015-08-01得票数 8

1回答

如何获取为给定字符手动设置的字形？

c++、unicode、adobe-indesign

我可以使用来使用具有手动选择的替代字形的字符。但是，我如何才能以编程方式检索该字形ID呢？我目前使用的是IDrawingStyle::GetSpecialGlyph，但它只有在底层字符没有Unicode表示形式时才起作用。但是，假设我使用Glyphs面板在文档中为character

浏览 2提问于2013-01-17得票数 7

回答已采纳

2回答

使用jTessBoxEdit训练Tesseract光学字符识别

ios、objective-c、tesseract

嗨，我想生成tesseract OCR训练数据文件(Tessdata)。我正在使用jTessBoxEditor工具(在Mac上)来实现这一点，但是我不知道如何进一步使用这个tool.And，我在我的ios应用程序中使用了tessdata文件。我也在寻找这个我和你分享链接但是我没有运气：)。因此，请分享通过训练文件</

浏览 11提问于2014-01-02得票数 1

1回答

似乎不能为tesseract使用多个-c参数

bash、ocr、tesseract

此外，图像是“表”格式(没有任何线条或边框)，并且tesseract只提取大空格(分隔列)，而不是一列中单词之间的单个空格。将tosp值设置为0似乎可以解决这个问题。现在的问题是-c不能同时处理这两个-c参数，但是手册页明确指出您可以使用多个tesseract参数！如果这两个选项都在配置文件中，则似乎忽略了tosp_min_sane_kn_sp 0.0。如果<em

浏览 23提问于2019-12-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Tesseract 3.05中，我可以将字形表示为框文件中的两个字符(NA

相关·内容

在Tesseract 3.05中，我可以将字形表示为框文件中的两个字符(NA

字形到unicode字符串的转换

能否更改OCRed pdf中的字体输出？

解析PDF文件并输出单个字符位置

Tesseract OCR无法正确训练图像

R-用NA替换特定值内容

在操作系统中字符集和字体有什么区别？

“失踪字形”-方框的编码

预先知道字体的图像

如何获取字符范围

FormattedText.BuildGeometry丢弃字符

训练Tesseract标记图标

在什么情况下，一个字体每个unicode字符可以有多个字符，这是如何处理的？

为什么火狐和Chrome呈现"ಠ_ಠ“(U+0CA0)是不同的，即使我在UTF-8上设置了两者？

TrueType字符字形数据的栅格化

在tesseract框文件中，第五列的含义是什么？

如何从图像生成tiff/box文件以在Windows中训练Tesseract

如何获取为给定字符手动设置的字形？

使用jTessBoxEdit训练Tesseract光学字符识别

似乎不能为tesseract使用多个-c参数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐