文本提取_提取特定文本和提取_Python -提取文本 - 腾讯云开发者社区

我使用将样式提取到css文件中。它印了很多这样的东西：子提取-文本-webpack-插件：+2隐藏模块子提取-文本-webpack-插件：+7隐藏模块子提取-文本-webpack-插件：+7隐藏模块子提取-文本-webpack-插件：+2隐藏模块子提取-文本-webpack-插件：+2隐藏模块子提取-文本-webpack-插件：+4隐藏模块有没有办法通过配置来压制它？它很没用而且还抽筋了终端机的窗户。

浏览 3提问于2016-04-11得票数 4

1回答

从HTML中提取文本，排除<small>标记中的文本

、、

我想从HTML中提取文本，而不使用<small>标记： <h1>THE BIG TEXT<small>the small text</small></h1> 我可以用//h1/text()提取“大文本--小文本”，但如何只提取“大文本”，而不提取“小文本”呢？我必须使用什么XPath？

浏览 2提问于2015-12-25得票数 0

回答已采纳

1回答

提取PDF中表示为图像的文本- itextsharp

、、、

我在使用ITextSharp从PDF文件中提取文本的过程中，我已经成功地提取了我感兴趣的文本的一部分，但当我继续我的‘文本’提取时，我注意到一些文本单词(当我使用itextsharp从整个页面提取整个文本时无法获得文本)实际上被表示为图像。Adobe Reader已经向我确认了这一点。因此，简而言之:如何提取包含在PDF图像对象中的文本？我是否必须提取图像并找到另一种方法将其转换为文本？这是一个非常可怕的行星排列对我来说..有人遇到过这个问题吗？

浏览 4提问于2013-06-07得票数 2

回答已采纳

2回答

使用Python pdfMiner每页提取文本？

、

我尝试过用pyPdf和pdfMiner从pdf文件中提取文本。我有一些不友好的pdfs文件，只有pdfMiner才能成功提取。我使用代码来提取整个文件的文本。但是，我真的希望像pyPdf中的getPage(i).extractText()功能一样，按页提取文本。有人知道如何使用pdfMiner提取每页的文本吗？

浏览 0提问于2012-09-26得票数 12

回答已采纳

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

、、、、

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार 解压后的内容是：̄？3⁄4？？̧ü 有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

是否有使用云视觉api提取图像字体属性的功能？

、、、

文本提取用于从图像中提取文本。我们是否可以使用文本提取功能从给定的图像中提取字体系列、字体样式、字体大小等图像字体属性()？预期将提取以下功能字体-家庭： TimeNewRoman 字体尺寸： 18 字体-颜色：黑色

浏览 3提问于2019-08-22得票数 2

1回答

有没有办法在python中使用可读性(文本提取算法)和自定义算法从文本中提取链接？

、、

有没有办法在python中使用可读性(文本提取算法)和自定义算法从文本中提取链接？我想找出一种方法来提取正文中的链接。 1.)我在python 中使用可读性。 2.)我想以某种方式将提取的文本与原始的html文本进行比较，以便在文章的实际正文中提取链接。

浏览 0提问于2011-01-04得票数 0

回答已采纳

3回答

php中的pdf文本提取器类

、、

有没有任何可用的类，在php中提取所有的文本从pdf文件，以便我可以存储在mysql数据库中。我的pdf有许多元素，如图像，表格，纯文本，表单元素，图表等。到目前为止，我在过去的两天里看到了许多提取文本的类，但没有一个促进完整的文本提取，不是从pdf中提取完整的文本。我想从给定的pdf文件中提取所有文本，即使文本在表中等。有人知道这事吗？:) 非常感谢。祝您有愉快的一天:)

浏览 1提问于2011-06-29得票数 2

回答已采纳

2回答

如何提取有引文和没有引文的文本？

例如，如果文本是'SetVariable‘a "b“"c"’，我需要同时提取引用"a”、"b“、"c”和SetVariable的文本。我找到了正则表达式来提取引号中的文本。我需要帮助如何提取剩下的文本

浏览 11提问于2022-03-22得票数 0

回答已采纳

2回答

安装用于PDF文本提取的弹出器

、、

我试图跟随这个博客，尝试从发票pdf文件中提取文本。我的文本提取需要提取发票的特定字段。我尝试过pdfminer，textract，但它们都将文本提取为杂乱无章的文本，之后很难提取文本。我偶然发现了下面的Poppler包下载：看起来像是一个.tar文件。而不是python包。我不确定如何使用这个.tar文件来解压包并在Python中使用它。任何建议，我如何在我的mac上安装它，然后在python中以编程方式使用它来运行一堆pdf文件来提取数据。

浏览 24提问于2020-04-24得票数 2

1回答

如何从使用iText在C#中的PDF文件中提取正确顺序的文本布局

、

我知道如何从PDF中提取文本格式，正如在中解释的那样。我甚至知道如何用正确的顺序来提取文本，就像在中解释的那样。但是，要按正确的顺序提取文本格式是不容易的。换句话说，当我在iText中提取文本时，如何使用两种策略？

浏览 5提问于2022-08-26得票数 0

2回答

使用Perl从PDF中提取图像/文本

、、

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。我尝试使用，它不是以文本形式提取的，而是以其他格式提取的。有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

浏览 0提问于2016-04-27得票数 2

1回答

机器学习模式适用于使用单词特征作为x，y作为文本的点击率。

、、

嗨，我想用机器学习模式使用点击率来提取英语文本中的单词。现在我知道了文本的点击率，我知道如何提取每个文本的单词(词)，例如，大约有10000个文本，并且提供了每个文本的点击率。如何为点击率提取单词特征。如何提取关键词，计算每个单词的重要性，以计算点击率。

浏览 0提问于2018-04-09得票数 0

1回答

使用pdfbox，为什么可以提取文本，但不能提取图像

、、

我正在使用pdfbox从这个中提取图像和文本。我有以下提取文本的代码： PDFTextStripper p = new PDFTextStripper(); String thistext=p.getText(document); 它可以正确地提取文本。但是，当我尝试使用ExtractImages类从相同的pdf中提取图像时，生成的图像是pdf的所有页面，而不是实际的图像。这是因为pdf可能是扫描副本的原因吗？如果这是真的，为什么文本会被提取出来？

浏览 4提问于2013-01-31得票数 0

1回答

是否有方法将选定的文本解压缩到同一目录中的新文件中？

在“崇高文本”中，有没有一种方法可以将选定的文本提取到单独的文件中？我经常在LaTeX上这样做。请考虑以下文件： main.tex \section{Introduction} ... ... \section{Conclusion} 我希望能够从Introduction开始选择文本，直到在Conclusion之前的一行，右键单击，然后说“提取到文件”(有点类似于Visual中的“提取方法”)。有没有办法通过任何捷径来实现这一目标？奖励：一旦提取完成，用自定义文本替代提取的文本，比如\input{introduction}，其中introduction是文本被解压缩到的文件的名称。

浏览 9提问于2013-09-11得票数 3

回答已采纳

1回答

如何在Java Apache POI库中使用嵌入式公式？

、、

我试图使用"Apache POI“将嵌入的公式和文本从.doc MS Word文件中提取到.ppt MS Powerpoint文件中，我已经成功地提取了文本，但是如何提取嵌入的公式？如果我只将其提取为文本，则嵌入的公式将如下所示： !!EMBED Equation.3

浏览 1提问于2011-07-26得票数 2

回答已采纳

1回答

是否有办法避免在每个爬行中重新编制文件索引？

、、

我需要索引的重量级格式文件与微软搜索服务。我创建了一个IFilter和一个存储索引结果的后端。因此，如果从某个给定文件中提取文本花费了太长时间，并且关闭了IFilter ( Microsoft的内置看门狗功能)，后端就会进行提取，并且可以在下一次爬行时快速返回提取的文本。我关心的是存储所有进程文件的文本提取文本。只是感觉不对。有什么办法可以避免吗？Microsoft Search是否有一些设置或协议来告诉它必须记住某个文件的文本而不再要求提取的文本？

浏览 0提问于2009-06-01得票数 1

2回答

如何使用PyPDF2按正确的顺序从PDF中提取文本？

、

我目前正在做一个项目，以提取PDF的内容。代码运行平稳，我可以提取文本，但提取的文本没有正确的顺序。代码以一种奇怪的方式提取文本。课文的顺序到处都是。它不会自上而下，而且真的令人困惑。我在网上查了一下，但在如何排序文本提取方面几乎没有什么帮助。大多数教程得出了同样的结果。作为参考，这是我目前正在测试的PDF文件(第5页)： import PyPDF2 with open('pdftest2.pdf', 'rb') as pdfTest: reader = PyPDF2.PdfFileReader(pdfTest) page5 = re

浏览 8提问于2021-05-16得票数 0

回答已采纳

2回答

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

、

我不是专业的程序员。我想要一个简单的方法，从pdf中提取文本，并将文本保存到Excel中。我认为Uipath可以使用OCR提取文本。但我不认为这是一个非常可靠的方法。我可以使用Uipath通过一种比OCR更可靠的方式进行文本提取吗？我可以使用Python，R或其他用户友好的软件从pdf中提取文本吗？谢谢!

浏览 16提问于2020-07-13得票数 0

3回答

使用python从Xray图像中提取文本/字符

、、

我正在尝试提取x光中的字符，我尝试过使用pytesseract提取，但不能成功，我使用了精明的边缘来去除噪声并提取，但我仍然无法提取文本/字符。您能帮助/指导我提取文本/字符吗

浏览 26提问于2018-09-08得票数 1

5回答

使用python从MS word docx文件中逐页提取文本

、、、、

我有一个MS文件，我需要从其中提取文本分页。我尝试过python，但它可以提取整个文本，但不能提取页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后，docx的页面结构发生了变化。例如，在转换时，字体大小被更改，而docx的一页中的文本内容在pdf中占用了多个页面。我正在寻找一个稳定的解决方案，可以从docx中提取分页文本(而不转换为pdf将更适合我的整个解决方案)。有人能帮我吗？

浏览 9提问于2019-12-18得票数 4

回答已采纳

2回答

来自节点的getTextContent，带空白字符规范化

、、

我正在与XPATH，Java的工作，并想从一个html页面提取一些文本。文本位于某个div下，中间有一些空格字符，如  <br>等。我希望在提取时将这些字符分别转换为“空格”和“换行符”。我用来提取文本的方法是Element.getTextContent()，它不考虑空格字符。谁能告诉我，有没有办法提取文本的空白标准化或提取整个html标记下的节点，以便我可以自己替换它。谢谢Nayn

浏览 1提问于2010-05-21得票数 2

回答已采纳

2回答

我怎么才能在一个短语之后得到一个特定的词？

、、、、

我正在处理一个包含文本的数据集，我想在文本中提取一个名称。因此，它的tweet_id，文本列和我想从tweet文本中提取名称。 text.startswith('This is ') and re.match(r'[A-Z].*', text.split()[2]): new_names.append(text.split()[2].strip(',').strip('.')) 这就是我在“这是”之后提取的名字。我想提取文本中间的名字，比如在单词"name is“和”name“之后，我该怎么做呢？

浏览 5提问于2022-09-06得票数 0

2回答

提取LTFigure对象后面的文本

、、

我正在使用python pdfminer库(参见docs)从pdf文件中提取文本。然而，pdfminer似乎无法提取某些文件中的所有文本，而是提取LTFigure对象。假设从这个对象的位置，它“覆盖”了一些文本，因此这个文本没有被提取出来。 pdf文件和包含从pdf提取信息的代码的简短jupyter笔记本都在我专门创建的Github存储库中，目的是提出这个问题： https://github.com/druskacik/ltfigure-pdfminer 我不是一个pdf文件如何工作的专家，但常识告诉我，如果我可以在浏览器中使用control + f查找文本，它应该是可提取的。我考虑过使

浏览 149提问于2021-01-28得票数 0

回答已采纳

1回答

使用XSLT从包含嵌入式链接的XML中提取纯文本

、、

我正在尝试从XML中提取类似于以下内容的文本： <p>This is a paragraph <a href='http://link.com'>with an embedded link</a> with more text afterwards</p> 我希望提取的文本保持段落中的URL，如下所示： This is a paragraph with an embedded link (http://link.com) with more text afterwards 提取文本相当简单： XSLT和URL：<xsl:va

浏览 0提问于2011-11-03得票数 2

回答已采纳

4回答

从XPS文档中提取文本

、、、

我需要从XPS文档中提取特定页面的文本。提取的文本应以字符串形式写入。我需要这个来读出使用微软的SpeechLib提取的文本。请仅在C#中举例。谢谢

浏览 0提问于2012-09-04得票数 0

1回答

用于Android的实体提取API

、

我已经成功地从图像中提取了文本，但现在我不知道如何从提取的文本中提取名称、位置、电话和单元格号。下面是一些已提取的示例文本。 Comsats Institute of Information technology,Abbottabad. Dr Usama Ijaz bajwa Assistant Professor Phone:+92 321 6647911

浏览 1提问于2015-03-04得票数 1

回答已采纳

1回答

使用c#识别从pdf文档中提取的文本的段落和页面边界

我正在开发应用程序，我需要从pdf中识别段落。我需要提取文本并识别段落。是否有任何方法提取文本和识别段落和页面边界提取的文本从pdf文档使用c#？

浏览 2提问于2015-03-25得票数 3

回答已采纳

2回答

停止撤销()清除编辑器Quill / QuillJS中的所有内容吗？

我创建了一种将Quill文本保存到数据库中的方法。每次用户单击保存的文档时，它都会从数据库中提取保存的Quill文本，并将文本显示在Quill文本编辑器中。此时，如果触发撤销函数，它将删除从数据库中提取的所有文本，因此页面为空。我认为所发生的事情是，Quill编辑器将从数据库中提取的文本视为粘贴到文本编辑器中，因此当您触发undo函数时，它会清除“从数据库中粘贴/从数据库中提取”。有什么办法阻止这种事发生吗？在从数据库中提取初始文本之后立即触发undo函数时，是否有一种方法可以使quill不能清除所有内容？

浏览 10提问于2020-01-08得票数 2

回答已采纳

1回答

在openimaj中是否有OCRProcessor的具体实现？

、

我试图使用openimaj进行文本提取，并使用LiuSamarabanduTextExtractorBasic文本提取器子类。但是这个类需要一个OCRProcessor实现来完成实际的OCR。下面是javadoc public void setOCRProcessor(OCRProcessor<T> ocr) 对于提取以与文本区域的文本表示相关联的文本区域，必须使用OCR处理器。使用此函数可选择用于提取读取文本区域的OCR处理器。我没有在openimaj库中找到实现(如果您问我的话，这是很奇怪的)。有我可以使用的OCRProcessor实现吗？

浏览 4提问于2015-04-26得票数 1

回答已采纳

1回答

如何在android中使用itextpdf从马拉蒂、印地语pdf文件中提取文本

、、

我使用itextpdf从我的android应用程序中的pdf中提取文本。对于有英语语言的pdf来说，它很好，但是当我试图从marathi或印地语pdf中提取文本时，它并不是提取正确的文本。它带来的结果是 मत्रबधअरुणकळकणीैंुशेणानेजधमनीसारवनूझाल्याआधणसमुाककागणुगणुतरागोळीकाढूलागली。तीं 请帮助我提取适当的内容。

浏览 0提问于2016-12-02得票数 2

回答已采纳

1回答

无法从特定PDF中提取文本和图像

、、、、

有谁能让我知道如何从PDF中提取所有文本和图像？在类似的场景中，我能够提取图像，我使用Google创建了一个PDF，只有几行文本和2个png图像。但是，我无法从样本中提取图像。我试过以下几点：在Ruby中： 1)“pdf阅读器”创业板，它只支持少数格式的图像提取。 2)“文档分割”创业板，它只能提取文本，不能提取图像。命令行实用程序： 1) "pdfimages“工具，它只支持少数格式的图像提取。 Java库： 1) pdfbox库，它只支持少数格式的图像提取。

浏览 0提问于2015-05-20得票数 2

回答已采纳

3回答

如何使用正则表达式提取多语言内容

、

我应该以这种方式从文本结构中提取多语种内容：一些意大利文本/it英语文本/en bla bla bla 其他文本其他意大利语/it其他英语文本/en bla bla bla 我将摘取所有不附在beetwen多语种方括号内的案文和附在beetwen当前语文方括号内的案文。例如，如果当前语言为"en“，我将提取以下文本：一些文本英语文本bla 其他英文文本如何使用正则表达式正确提取文本？

浏览 4提问于2011-07-26得票数 1

回答已采纳

1回答

用gstreamer从h264视频文件中提取覆盖文本

如何将文本覆盖到h264流上并使用GStreamer存储它，以便以后可以提取覆盖文本。我需要从视频中提取覆盖文本。我使用以下命令将文本叠加到流上并存储它。 gst-启动-1.0 -e imxv4l2videosrc！文本层text=“示例视频”valignment=position halignment=position xpos=1 ypos=1字体-desc=“Sans，20”！时间覆盖！vpuenc_h264！马特罗斯卡姆！文件墨迹location=video.mp4 是否可以从使用上述命令生成的视频中提取文本覆盖？如果没有，如何覆盖文本，以便以后可以提取？

浏览 1提问于2016-12-26得票数 0

1回答

pdfjs:使用正确的换行符/带空格从pdf中获取原始文本

、、

使用，我制作了一个从pdf中提取原始文本的简单函数： async getPdfText(path){ const pdf = await PDFJS.getDocument(path); const pagePromises = []; for (let j = 1; j <= pdf.numPages; j++) { const page = pdf.getPage(j); pagePromises.push(page.then((page) => { const textContent = p

浏览 0提问于2019-02-12得票数 4

回答已采纳

1回答

从R中的文本中提取列表项

我有一个使用pdftools::pdf_text从PDF中提取的文本。例如，PDf包含点项目： - project abstract - project narrative 提取后的文本如下所示：  project abstract  project narrative 现在，我想从文本中提取这些项目。我试过这样做： grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text) 但它找不到。什么是正确的regex表达式来提取列表项？或者，提取列表项的正确方法是什么？

浏览 6提问于2021-12-21得票数 0

回答已采纳

1回答

在文本文件中，如何在Unix上使用文本的特定文本模式来处理文本的多个部分？

、、

我使用sed -n START_LINE,FINISH_LINEp filename > newfile从文本文件中提取指定范围的文本，例如sed -n 45,50p datafile > newfile。我如何使用它来提取文本的多个部分，这些部分总是与相同的文本模式相邻？例如，我想要提取的文本总是从Subject:?????开始的39行，在Start Date: ??/??/??之前结束。

浏览 0提问于2016-03-03得票数 -1

1回答

使用pdfclown从特定区域提取

、、

我试图用两列突出显示PDF中的文本，但问题是提取器按行提取文本。因此查询到的文本不会匹配。我在想，pdfclown中是否有一些函数可以帮助我提取页面的前半部分，即第一列，然后可能通过选择区域来提取第二列。谢谢。

浏览 4提问于2013-05-21得票数 0

回答已采纳

1回答

在精确给定函数范围内提取文本的正则表达式

我正在从一个.config文件中读取文本，然后我有一个长字符串，在这里我需要提取一个与下面给定的模式相匹配的文本。.config文件定义了两个函数(input and filter) 这是从.config文件中提取的文本 input { name: "abc", age: "20" } filter { name: "pqr", age: "25" } 我只需要提取过滤器函数中的文本，包括过滤器文本本身。预期输出 filter { name: "pqr", age: "25

浏览 0提问于2019-04-26得票数 0

回答已采纳

1回答

Tesseract OCR iOS检测手写表单中的文本，并使用该文本自动填充联机表单

、、、、

我已经使用Tesseract从扫描的文档中提取文本，并且我能够从扫描的文档中提取文本。现在，我想从手写表单(硬拷贝)中提取文本，并使用该文本自动填充我的在线表单(同一手写表单的软拷贝)。有人知道怎么做吗？提前感谢你的帮助。

浏览 1提问于2017-06-27得票数 2

1回答

从Mac上的富文本剪贴板内容或文本选择中提取超链接

、、、、

我希望能够获得我在Mac上选择的任何格式化文本(格式化文本，如网页或文字处理文档)中所有超链接URL的列表。最好是使用Applescript或Automator从文本中提取这个超链接列表(这样我就可以使用Applescript对这些URL执行进一步的处理)。请注意，我指的是从格式化文本中提取超链接，而不仅仅是从包含纯文本URL的文本中提取URL。从格式化文本中提取超链接似乎应该是一项简单的编程任务，但我一直在努力寻找一种方法，无论是在Applescript还是Automator中。 Automator可以设置为接受文本选择中的富文本输入，也可以从剪贴板输入富文本，但我无法找到任何方法将此

浏览 6提问于2015-09-18得票数 5

回答已采纳

3回答

如何使用pdfbox提取文本内容的字体样式？

、

我正在使用pdfbox库从pdf文件中提取文本内容。我可以提取所有的文本，但找不到提取字体样式的方法。

浏览 10提问于2011-08-04得票数 6

回答已采纳

2回答

PDF提取时忽略表格

、、、

我正在尝试用Java制作一个文本处理应用程序，它需要文本作为输入。现在，我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是，PDF文件可能包含表格、方程式和特殊符号，所以PdfBox提取的文本在很多地方都包含垃圾。由于这个原因，我的文本处理应用程序无法给出它的最佳结果。我想知道PDF是否有特定的表格格式，这样我就可以到达根级别，并在提取时排除它们。此外，在许多情况下，提取的文本包含呈现为“？”的未知字符。虽然在实际的PDF中，它们看起来是普通的字母表。我也尝试过其他库- IText，但效果并不理想。简而言之，我想要的是从PDF文件中提取简单的句子，排除所有

浏览 2提问于2012-03-27得票数 0

2回答

美丽的汤4:提取没有标签的文本

、、

<li class="actualPrice price fakeLink " data-automation="actual-price"> <span class="visuallyhidden">Hello world</span> Some text I want to extract </li> 这里有一些HTML。我想提取文本“一些文本我想要提取”，我不想提取哈罗世界。我尝试过像find('span')和使用next_sibling之类的东西，但是没有。

浏览 2提问于2017-03-16得票数 0

回答已采纳

1回答

如何从pdf文件的图像中提取文本？

我在python应用程序中使用tika从文档中提取文本。一切正常，但它不是从pdf文件中提取的图像。Tika可以从pdf和图像中提取文本，但不能从包含图像的pdf中提取文本。我有点困惑。有没有办法做到这一点？是否需要将PDF文件转换为图像？

浏览 3提问于2018-10-11得票数 1

1回答

如何为vue组件css添加提取文本插件？

、、、

我为vue组件添加了提取sass和scss的提取文本插件，但现在我想知道如何为普通css添加提取文本插件？

浏览 4提问于2018-03-09得票数 0

1回答

如何提取不是图像的图形

、

的第一页在图像顶部显示以下白色修饰文本。在使用时，该图形是而不是提取为图像，只提取背景图像，没有白色修饰文本。当转换为Word文档时，修饰文本被提取为形状，可以修改属性，例如填充颜色、边框颜色等等。是否可以使用PDFBox从PDF中提取该形状？多么?

浏览 8提问于2021-12-19得票数 0

1回答

用于提取文本的Xquery

我的工作是从html文件中提取文本并存储在数据库中。我正在使用网络收割工具来提取内容。然而，我有点卡在了一个点上。在webharvest中，我使用XQuery表达式来提取数据。我正在解析的html文档如下： <td><a name="hw">HELLOWORLD</a>Hello world</td> 我需要从上面的html脚本中提取"Hello world“文本。我尝试过以这种方式提取文本： $hw :=data($item//a[@name='hw']/text()) 然而，我总是得到的是

浏览 2提问于2010-06-23得票数 1

回答已采纳

2回答