使用SoupStrainer和BeautifulSoup获取具有多个属性的所有标签

文章/答案/技术大牛

发布

1回答

、

当class属性有几个不同的值时，我试图获得'td‘标记的所有匹配项。事后我知道如何使用BeautifulSoup完成此操作，但由于所需的时间较长，我试图通过使用SoupStrainer选择性地解析每个页面来加快速度。我最初尝试了下面的方法，但似乎不起作用。strainer = SoupStrainer('td', attrs={'class': ['Val

浏览 0提问于2017-07-18得票数 0

3回答

SoupStrainer可以有两个参数吗？

、、

我在stackoverflow或Google上找不到这样的问题，所以我还是会把它贴出来，以帮助任何偶然发现它的人。我想使用BeautifulSoup中的SoupStrainer来解析两个标记，而不是html文档中的一个。我知道我能做到：这将获得<p>标

浏览 4提问于2014-12-31得票数 4

2回答

尝试使用BeautifulSoup从本地文件收集数据

、

我想运行python脚本来解析html文件，并收集具有target="_blank"属性的所有链接的列表。import sys from bs4 import BeautifulSoup,

浏览 0提问于2013-07-10得票数 1

回答已采纳

1回答

find_all()函数和BeautifulSoup包的SoupStrainer有什么区别？

、

以下代码用于在屏幕上打印html_doc的标签，它是一个包含html代码的变量：下面的代码返回相同的结果： print(Beautifu

浏览 1提问于2017-11-10得票数 1

1回答

可以用一个BeautifulSoup文档使用多个过滤器吗？

、、、、

我使用Django和Python3.7。我想加速我的HTML解析。(req).read() bad_elts = comments_soup.findAll("span", text=re.compile(&

浏览 0提问于2019-02-22得票数 3

回答已采纳

1回答

使用httplib2和BeautifulSoup递归搜索网站的链接

、、

我使用以下方法从网页中获取所有外部Javascript引用。我如何修改代码，以便不仅搜索网址，而且搜索网站的所有页面？import httplib2status,关于如何使它只返回唯一的urls，有什么建议吗？事实上，大多数都是重复的。(请注意，所有</

浏览 5提问于2017-10-02得票数 0

5回答

使用Python和BeautifulSoup基于属性解析a标记

、、、、

使用这部分html： <a class="playerLink" href="http://bbroto.baseball.cbssports.com但是，我还没有弄清楚如何使用BeautifulSoup引用Python循环中的子选项卡。以下是我的尝试： pl =

浏览 0提问于2013-12-06得票数 2

回答已采纳

4回答

提取HTML表单的字段名称- Python

、

假设有一个链接"“，它基本上是一个具有两个表单(比如表单1和表单2)的超文本标记语言页面。我有一个这样的代码...from BeautifulSoup import BeautifulSoup, SoupStrainer if field.h

浏览 0提问于2011-08-02得票数 6

回答已采纳

2回答

无法过滤图像的美化效果

、

我试图获取网页上图像的URL，并使用以下代码：from BeautifulSoup import BeautifulSoup, SoupStrainer 我想过滤到看不见的图像的链接，比如： img style="position:absolute;z-index:-3334;top:0px;left:0px;visibility编辑:谢

浏览 1提问于2017-04-25得票数 0

回答已采纳

1回答

漂亮的汤和过滤器，让链接不起作用，哈扎特，还总是正确的

、、、、

我正在使用Python3.3中的Beautifulsoup4和Soupstrainer来获取网页上的所有链接。以下是重要的代码片段：for link in BeautifulSoup(r.text, parse_only=SoupStrainer正因为如此，我在使用链接‘’href‘的</

浏览 4提问于2013-07-30得票数 1

回答已采纳

1回答

如何对包含破折号的属性使用SoupStrainer？

、、、、

我使用的是Django和Python 3.7。我想使用BeautifulSoup和SoupStrainer在文档中查找具有属性的特定元素。但是如果属性中包含破折号，我该怎么做呢？我想这么做 my_strainer = SoupStrainer('a', data-id="aaa") 但这会导致错误 Can't assign to f

浏览 21提问于2019-02-23得票数 1

回答已采纳

3回答

BeautifulSoup `find_all`发生器

、、

有没有办法把find_all变成一个内存效率更高的生成器？例如：soup = BeautifulSoup(content, "html.parser")我想代之以： soup = BeautifulSoup这里有一些内置的生成器，但不会在查找中产生下一个结果。有了成千上万的条目，find_all吸收了大量的内存。对于5792个项目，我看到一个略高于1GB内存的峰

浏览 6提问于2016-12-29得票数 6

回答已采纳

1回答

在一组表格下选择一组特定的单元格，使用python和漂亮汤

、、、

每个网页都有一个或多个表。表的共同点是它们的类是相同的，考虑到"table_class."We需要同一列下的内容第三列，标题是每个table.Contents的标题意思，第三列中的href链接来自所有行。一些行可能只是纯文本，而有些行可能有href链接。您应该将每个href链接逐个打印在单独的行中。使用属性进行筛选的无效，因为某些标记具有不同<

浏览 58提问于2015-04-09得票数 1

回答已采纳

3回答

如何编写python脚本在网站html中搜索匹配的链接

、

基本上，我仍然需要的模块是如何检查匹配链接预先提供的网站代码。

浏览 1提问于2010-03-04得票数 4

回答已采纳

1回答

我不能让两个程序同时运行

、、

我一直在尝试让这两个脚本作为一个脚本工作，但没有成功。我正在尝试在Windows 7环境中运行它。import time print(tme) url

浏览 0提问于2017-06-25得票数 0

1回答

使用SoupStrainer与lambda表达式

、、

给定具有三个a标记的以下html：<html><head><title>The Dormouse's story</title></head><p class</p>我想要创建一个SoupStrainer实例，该实例将html_doc缩进，过滤a属性包含‘lister__ cla

浏览 5提问于2017-09-14得票数 0

回答已采纳

2回答

使用Beautifulsoup和Selenium从包含特定单词的网页中获取链接

、、、

我写了这段代码来登录我的FB帐户，并使用Selenuim和BeautifulSoup获取页面上的所有群组链接，但BeautifulSoup使用不能正常工作。我想知道如何在同一代码中使用Selenuim和BeautifulSoup。我不想使用Facebook API；我想使用Selenium和BeautifulSoup<

浏览 0提问于2015-03-19得票数 0

2回答

如何获得“亚汤”并连接/加入它们？

、、、

我用的是“美酒汤”。现在，我想从该文档中检索几个“子汤”，并将它们连接到一个汤中，这样以后我就可以将它用作一个函数的参数，该函数期望使用一个soup对象。object and calls its methods目标是在resulting_soup中有一个对象，该对象/行为类似于具有以下内容的汤</p> 有方便的方法吗？如果有比find()更好的方法来检索

浏览 7提问于2015-12-30得票数 8

回答已采纳

1回答

检索网页中的数字并存储在SQLite3 db中

、、、、

每个论坛都有自己的桌子名。将这些对象存储在一个列表中，以便在循环中使用。获取一个网页.htm (带有请求)，其中连接人员的数量被写在一个span标记中，类“nb- connected”看起来像这个<span class="nb-connect-fofo">1799 connecté我用BeautifulSoup得到字符串，用REGEX得到每个论坛应该做<e

浏览 0提问于2017-06-30得票数 4

回答已采纳

1回答

在python中，表解析是如何工作的？那个漂亮的汤有什么简单的办法吗？

、、、、

我试图了解如何使用漂亮的汤提取href链接的特定列下的内容，在一个表的网页。例如，考虑一下链接：。在这个页面中，带有类wikitable的表有一个列标题，我需要提取列标题下每个值后面的href链接，并将它们放在excel工作表中。做这件事最好的方法是什么？我在理解漂亮的汤表解析文档方面遇到了一些困难。

浏览 4提问于2015-04-06得票数 3

回答已采纳

点击加载更多