中文 ocr pdf文字识别_ocr文字识别中文_pdf文字ocr文字识别 - 腾讯云开发者社区

、、、

我有一个下载的PDF在中国，我想提取文本从使用提卡+ Python (原始链接到完整的PDF可以找到，或提取的样本页面可以找到)。当我运行以下代码时file_data = parser.from_fileÆ Éª £¬ £Ì £® £È £® 我创建

浏览 1提问于2020-09-07得票数 0

1回答

基于Tesseract OCR的汉字识别

、、、

我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是，如果我使用中文文本图像并通过OCR，则Tesseract不会为我提供中文字符，而是我将获得数字和英文字符。但我需要在我使用的图像中显示的中文字符。我如何才能做到这一点？有没有办法获得中文字符而不是其他字符？

浏览 7提问于2013-05-16得票数 16

回答已采纳

2回答

汉字的C#光学字符识别

、、

我正在做一个中文字符的OCR项目。但问题是，我需要让用户使用方框中的光标来选择他们希望系统扫描和识别字符的图像部分。有人知道怎么做吗？我被要求做一些像COCR2这样的事情。

浏览 1提问于2011-03-29得票数 0

1回答

帮助Canon CanoScan LiDE扫描PDF文档

、、、

当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我通过简单的扫描将页面扫描为文本，并将其保存为PDF格式。但是在Ubuntu中，当我打开扫描的PDF页面时，它会打开OK，但是我不能复制文本。

浏览 0提问于2014-03-16得票数 2

回答已采纳

1回答

使信的边缘变薄，使之只保留OCR的信的中心

、、、

我正在努力提高复杂字母的识别率，例如日文/中文字母。

浏览 4提问于2016-11-29得票数 1

回答已采纳

2回答

可将OCR文本插入回源PDF的OCR库

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

2回答

哪种软件可用于PDF扫描，可以提取信息并发送到发票程序？

、、、、

我在一家公司当实习生，他们需要精确扫描PDF格式的发票。该程序，即java库，需要能够提取发票的某些部分，这样用户就不必手动重新键入信息。

浏览 0提问于2019-09-12得票数 0

1回答

快速检查PDF文件上的OCR文本层

、

有没有什么程序可以让我在PDF渲染的基础上叠加PDF的文本(OCR)层？如果这可以用程序来完成，那会更方便，如果不能，一些cli命令或脚本也可以工作。

浏览 2提问于2017-11-18得票数 1

1回答

我正在生成PDF文件，其中包含英文和中文字符(使用Ruby对虾库)。我不想在生成的PDF文件中嵌入中文字体文件，因为这些文件需要保持较小。所以，我想知道我是否可以在PDF文件中提到一个中文字体名，让PDF阅读器正确地呈现汉字，因为PDF阅读器已经有了中文字体文件。这有道理吗？如果是这样的话，在大多数中国人使用的PDF阅读器中是否会安装一些常用的中文字体？

浏览 2提问于2015-05-06得票数 2

回答已采纳

1回答

关于拆分PDF和OCR识别

、、、

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

3回答

日本最精确的开源OCR？

、、

根据您的经验，什么是最准确的开放源码光学字符识别(OCR)库/软件来读取日文文本？日本旧手机(特别是夏普手机)在10年前就有了很好的日本OCR，所以我想它在开源中也是可行的。

浏览 0提问于2015-02-03得票数 6

1回答

如何使用Firebase ML工具包识别PDF文件中的文本？

、、

我正在开发一个Android应用程序来检测PDF文件中的文本。所有都是一样的，

浏览 1提问于2019-03-07得票数 0

1回答

如何在PDFTextExtractor上使用iTextSharp

我想用iTextSharp从pdf文件中检索文本。但是，我无法像在itextsharp(itext)的JAVA中那样使用PDFTextExtractor。私有字符串readPDFOffline(string fileUri)；检索此Pdf的文本内容；*返回contentOfflineFile

浏览 3提问于2010-12-10得票数 3

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

如何让转换笔记本命令在Mac上支持中文？我愿意为jupyter notebook贡献一些代码。

、

此命令成功地将不包含中文字符的笔记本文件转换为pdf。jupyter nbconvert test.ipynb --to pdf有没有办法解决这个问题？

浏览 3提问于2019-11-14得票数 2

1回答

OCR表格识别是否支持Excel表格合并？

浏览 138提问于2022-06-15

1回答

如何从PDF中提取音乐符号？

、、、

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.exe -f MAC

浏览 5提问于2019-07-22得票数 0

回答已采纳

1回答

OCR文字识别？

浏览 146提问于2022-06-15

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

2回答

生成包含中文字符的iText，但不显示

、、、

我正在使用iText创建一个带有中文字符的PDF。Font.NORMAL));FontFactory.getFont("MS Mincho", 16, Font.NORMAL) 但是，生成的PDF仅显示ASCII文本“亚洲字符”，即中文字符不显示在PDF上。你知道为什么生成的PDF中缺少中文字符吗？

浏览 0提问于2013-05-30得票数 5

点击加载更多