从URL Python中提取特定文本

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试从返回的许多urls中提取特定的文本。我正在使用Python2.7和requests和BeautifulSoup。一旦我在网址列表中找到了最高的数字，我就需要将这个"“加入到具有最高数字的网址中。最终的产品应该是这样的。这是正确的方法吗？

浏览 2提问于2017-08-14得票数 2

回答已采纳

3回答

在Python中使用URL从txt中提取数据

、

我有一个包含txt 的URL，我想从这个URL中提取一段特定的数据：我已经添加了txt文件的截图。在截图中你可以看到“目录”。从这些目录中，我想要提取特定项目编号的文本数据。例如，我想从第2部分项目5中提取数据，这些项目的数据位于第12页。有人能帮助我使用python提取此特定数据吗

浏览 2提问于2020-10-31得票数 0

2回答

安装用于PDF文本提取的弹出器

、、

我试图跟随这个博客，尝试从发票pdf文件中提取文本。我的文本提取需要提取发票的特定字段。我不确定如何使用这个.tar文件来解压包并在Python中使用它。任何建议，我如何在我的mac上安装它，然后在python<

浏览 24提问于2020-04-24得票数 2

1回答

图像到文本转换python

、、

我正在尝试使用python中的pytesseract模块从图像中仅提取突出显示的文本。问题是我无法提取突出显示的部分，整个图像正在转换为文本，我不知道如何提取基于背景颜色的特定部分。

浏览 11提问于2020-05-12得票数 0

1回答

用python从pdf中提取特定文本

是否可以使用python从pdf中提取特定的文本。测试用例:我有一个超过10页的PDF文件，我需要提取特定的文本和与它们相关联的值。示例：用户:value用户id:value。需要提取这些值。我能够阅读所有的页面，我现在想要具体的文本。

浏览 3提问于2020-05-10得票数 0

1回答

PYTHON + SELENIUM (CHROME)：如何从当前的url中提取特定文本，并使用提取的文本转到另一个url？

、、、

我使用iMacros已经有很长一段时间了，我有一段代码，我可以在其中提取文本并使用它来创建我需要的特定url。article[5]/h2/span/a" EXTRACT=TXT #With this, I'm able to use that extracted text to go to another urlURL GOTO=https://www.spiritfanfiction.com/perfil

浏览 12提问于2019-04-27得票数 1

回答已采纳

1回答

使用Python仅从PDF中提取特定文本

、、、

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。需要提取发票ID，发行日期，主题，金额从整个PDF文件。

浏览 8提问于2020-10-04得票数 1

回答已采纳

1回答

使用REGEX从URL提取特定文本

、、

我正在从事一个项目，其中我需要抓取一些文本，唯一可用的选择是通过正则表达式。如果这里的任何人可以帮助，那么请让我知道什么是正确的命令/语法来捕获文件编号从下面的URL。在本例中，我希望捕获的文本是"N14058677A“。谢谢!TM

浏览 5提问于2020-07-23得票数 0

1回答

从文本中提取特定的URL

、

我想从下面的文本中提取URL：<a href="http://domaine.com/t/text/text"> <img src="http://domaine.com/i/text/></a> <br> <a href="http://[GoTo]"></a

浏览 8提问于2017-06-27得票数 0

回答已采纳

1回答

从docx文件中提取特定字体的文本

、、、

我使用Python3.4和python-docx库来处理.docx文件。我已经能够从文档中提取文本。但我的目标是只提取那些具有特定字体的文本(并修改它们)。在过去的两天里，我一直在中搜索这个，但是没有结果。这里有没有人对这个库有经验，如果有，他们能给我指出正确的方向吗？

浏览 1提问于2014-09-01得票数 4

1回答

使用python从PDF文件中提取相关文本

、、、

使用python只从整个PDF文件中提取相关文本，并将输出数据存储到Excel的特定列中。我试图解决它，但不能提取特定的文本值。下面是需要提取的示例输出的屏幕截图：我想提取excel.不同列中的发票号、订单号和总价值。

浏览 8提问于2020-09-30得票数 0

2回答

从SMS打开URL

、、、

当我收到特定的消息时，我提取文本并将其保存到一个文件中。该消息由文本和URL组成。如何从文本文件中打开此url？

浏览 0提问于2011-09-13得票数 1

3回答

如何从Python的url中提取一些文本

、、、

我试图让python从URL字符串中提取一些文本。SkuName总是在第5个"/“之后，然后在第6号"/”结束。我想提取“SkuName”names =names[index])) pri

浏览 1提问于2019-03-28得票数 0

回答已采纳

1回答

谷歌什么时候索引了一个页面？

、、

当Google索引一个特定的html页面时，我怎样才能找到(任何语言，但如果Python更好)？理想情况下，我应该有一个URL列表来检查。此外，如果有人可以建议API从文本中提取多种语言中的日期。

浏览 2提问于2014-11-21得票数 0

回答已采纳

2回答

Python BS4美汤HTML.Parser在网站上不起作用

、

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我使用的代码：from bs4 impor

浏览 26提问于2019-07-13得票数 2

回答已采纳

1回答

仅抓取来自多个不同网站的内容

、、、

因此，我已经建立了一个使用Python的网络爬虫，它让我的每一篇新文章都是html。现在重点是，我想分析纯内容(只分析文章，没有评论或推荐等)，但我不能访问这些内容，除非定义一个正则表达式，以从我得到的html响应中提取内容。我曾尝试使用库html2text来提取内容，但该库仅将纯html转换为markdown，因此仍然存在评论或推荐等内容，我必须手动删除这些内容。有什么想法，我该如何面对这个问题？

浏览 11提问于2019-04-17得票数 1

回答已采纳

2回答

使用python提取完整的XML块

、、、

是否可以使用Python从XML文件中提取完整的XML文本块？我使用ElementTree和Python从XML中提取标记和值，以便比较2个XML文件。但是可以提取XML块的整个文本吗？matches>36</matches> <WC>yes</WC> &l

浏览 0提问于2018-11-28得票数 3

回答已采纳

1回答

使用python从pdfs中提取特定文本

、、

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python regex不能满足这个条件，

浏览 20提问于2022-06-30得票数 0

3回答

摘录PDF格式的文本(字体大小、类型等)

、、、

是否可以从PDF文件中提取有关特定字体/字体大小/字体颜色等的文本？我更喜欢Perl、python或*nix命令行实用程序。我的目标是从PDF文件中提取所有标题，这样我就有了一个包含在一个PDF文件中的文章索引。

浏览 8提问于2013-10-15得票数 4

回答已采纳

1回答

如何从.docx文件中的表中提取文本？

、、

我希望使用python从.docx文件中的表中提取文本，以便进行进一步分析。row.cells: print(paragraph.text)我还试图像在表中一样遍历单元格，但我得到的错误

浏览 1提问于2018-03-05得票数 0

回答已采纳

点击加载更多