python web抓取，提取标签的内部元素

文章/答案/技术大牛

发布

1回答

、

我想从一个网上购物网站刮产品和价格，在提取标签之间的字符串需要帮助 import bs4from bs4 import BeautifulSoup

浏览 3提问于2020-01-04得票数 1

2回答

获取具有特定span类python selenium的页面中的所有元素

、、

您好，我正在尝试使用python中的selenium抓取多个页面。我感兴趣的是提取属于span类元素的所有元素，基本上我想做的是获取span类元素，然后提取其中的链接。下面是一个web元素的示例： 📷 基本上，我想提取元素，这是一致的，在所有的页面，我将抓取<

浏览 30提问于2020-10-29得票数 0

回答已采纳

3回答

“汤”和“美汤”中的“汤”是什么意思？

、

“汤”和“美汤”中的“汤”是什么意思，为什么它被称为“汤”？

浏览 1提问于2014-05-19得票数 10

1回答

使用正则表达式从html标记中提取文本

、、

我刚接触web抓取和正则表达式。我知道了如何在html标签之间提取文本。问题是我不想要标签内的文本，比如class=“"，只想要标签之间的文本。>)', html) <h1 class="title">Title</h1>顺便说一下，我使用的是Python2.7.10和urllib2，然后重新导入。

浏览 3提问于2016-04-17得票数 1

1回答

我正在做一个研究项目，我需要能够从大量的Tiktoks中抓取标签。Tiktok已经采取了很多措施来对抗web抓取的正常方法，但是我发现我可以从chrome下载HAR文件并从中提取哈希标签。我发现的每个HAR到JSON python或java模块要么不工作，要么在输出JSON文件中没有hashtag信息。大多数在线HAR查看器只显示标题和参数，而我需要原始的JSON文件才能访问哈希标签</em

浏览 4提问于2022-11-06得票数 0

3回答

什么是好工具，自动抓取网站，检查某些链接，并提取数据？

、

我想自动抓取大约100万个URL(在一个CSV文件上)，并检查这些站点是否提供了Facebook登录按钮(即用户可以通过将他们的Facebook帐户连接到站点来创建帐户)。然后，我想记录这些按钮是为哪些网站找到的。什么是好工具？

浏览 0提问于2015-05-18得票数 3

回答已采纳

1回答

如何使用beautifulSoup对堆栈溢出问题进行web抓取标记？

、

= link.get('href') for i in link: title = link.string print(title) 输出: python浮点舍入python非谷歌合作python flask python漂亮汤python nonetype python ubuntu等。在从堆栈溢出站点提取数据时，我们在抓取问题的标签时遇到

浏览 0提问于2018-03-17得票数 0

1回答

解析python中的html值

、、

:0px;background-color:#f3f3f3" type="submit" value="▾"/> </td> 我需要从value="25“和value="0”中提取两个数字<=value=")(\d*)',str(y)) 但我认为应该有更直接的方法来通过解析器来做这件事，有人能帮上忙吗？

浏览 20提问于2020-12-15得票数 4

回答已采纳

1回答

XPath:从多个h4标记中选择一个h4标记

、、

我正在做一个网络抓取项目。因此，我检查了我的目标页面，并得到了下面的检查元素。现在有两个h4标记，随后在它们下面有两个段落。我想提取在h4技能标签下的段落。我的答案应该是Python，Java，Django。我怎样才能做到这一点？以下是被检查的元素： <section> <h4>Skills

浏览 3提问于2021-08-04得票数 1

回答已采纳

1回答

抓取HTML标记中的数据Perl

、、、

我正在编写一个web scraper，并且是Perl新手。我正在使用HTML::TreeBuilder获取所需的数据，但我遇到了一个不确定如何处理的情况。下面是一些示例HTML：我想从这个超文本标记语言标签中提取val。我一直使用findvalues()来做我的

浏览 1提问于2013-07-15得票数 1

回答已采纳

1回答

为什么BeautifulSoup不抓取整个网页呢？

、、

前提:我对Python和web抓取完全陌生。我正在尝试抓取这个页面上的品牌数据：https://www.interbrand.com/best-brands/best-global-brands/2018/ranking/，但BeautifulSoup只提取到某个点的html。在html中似乎没有什么奇怪的，因为在BeautifulSoup提取之前有五个几乎相等<e

浏览 11提问于2019-05-07得票数 4

3回答

如何从网站拉取信息到我的项目中？

、、

我有一个问题，那就是从网站获取信息到我的python项目中(当项目正在运行时)。我还没有写过任何代码，因为我是这种编程的初学者。我想问你，我需要哪些模块以及如何使用它们，如果你们中的一些人可以，我将感谢一些代码的例子。

浏览 1提问于2020-09-18得票数 0

3回答

Selenium Python:从没有类的元素中提取文本

、、、、

我对网络抓取非常陌生。我正在研究Selenium，并希望执行从span标记中提取文本的任务。这些标记没有任何类和ids。span标签在li标签中。我需要从li标记内部的span标记中提取文本。元素的HTML： <div> <ul class

浏览 3提问于2022-08-31得票数 -2

1回答

从终端运行带有模块的python程序

、

我在eclipse Photon中用PyDev编写Python (3.6.5)已经有几个月了。这是一个小型的终端应用程序，可以从公司内部网上的web (通过web抓取)提取数据，帮助我减少工作时间，避免手动操作。结构是这样的：从这个集成开发环境的控制台中显示的eclipse中的main.py启动应用程序，但是我想要从Windows CMD启动它，以便稍后使用PyInst

浏览 0提问于2018-05-13得票数 0

2回答

尝试获取除前5个标记之外的所有锚标记

、、

尝试用[anchor-tag]选择所有锚标签，但不想抓取前3个都被选中的锚标签。我试过:not()，但不能让它工作。我注意到我不想抓取的前3个锚点是在一个div类.web-container中。我尝试检查元素，然后按CTRL +F并找到.web-content a[anchor-tag]，结果显示为43，当我对其进行:not(.web-container)加法时，得到的结果为0。在inspect<e

浏览 13提问于2019-07-02得票数 0

2回答

python从web应用程序读取数据

、

我不是python方面的专家，但实际上我可以读取网页并检索标签中的精确值，但我需要的信息是在web应用程序上，而不是在网页的源代码中。我不是一个eb应用程序的专家，我想知道如果我检索的值显示在应用程序与python。下面是应用程序图片的链接："“

浏览 0提问于2014-06-06得票数 0

1回答

使用Python* PyQt对Javascript内容进行网页抓取*

、、、

我现在正在执行一项任务，系统地从似乎是由javascript呈现的课程列表中抓取内容。我在web上使用PyQt4遵循了一些脚本，但失败了(我在下面复制了它)。更准确地说，这个脚本在一些网站上使用javascript，它通过点击特定的链接来加载内容。然而，下面的网站(ouhk，我在下面的脚本中复制的链接)似乎没有指向特定内容的链接，即节目信息、节目结构和费用等。相反，它使用标签容器和FTP来存储和加载信息(我从其源代码中找到)。我想知道是否有任何方法可以修改以下脚本，以便

浏览 17提问于2016-09-21得票数 3

2回答

有没有办法从另一个网页上的HTML表格中提取数据？

例如，如果我可以访问ESPN的网站，查看联赛排名并将记录发送到我的代码，我想这是可能的。我知道有些网站有你可以使用的API，但我会使用它的网站没有…

浏览 1提问于2016-07-07得票数 0

1回答

python中的嵌套隐藏标记抓取

、、、

第一件事首先，对python和web抓取来说非常新。我有一页书需要刮掉。我看了很多源，却找不出嵌套隐藏标记的抓取方法。该页面需要登录并能够获取可见数据，我的代码成功地执行了这些数据。但是，当涉及到在div标记中刮取嵌套元素时，它什么也找不到。我的问题是访问最内部的span中的文本。1" menuname="Cancel" parentid="63"

浏览 0提问于2019-03-01得票数 1

1回答

从网页中提取主题/关键字

、、

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

点击加载更多