如何使用BeautifulSoup获取我具体需要的内容_使用Beautifulsoup获取HTML标题的内容_如何获取数组的具体内容(?)使用php？ - 腾讯云开发者社区

python、html、python-3.x、web-scraping、beautifulsoup

我正在抓取一个网站，并从网站上的多个点拉取信息，html看起来像这样： <div class="Item-Details"> more text here that i would like to grab </p> 我使用的是： so

浏览 10提问于2020-11-11得票数 1

回答已采纳

2回答

从网站上的搜索查询中提取产品URL

python、beautifulsoup、python-requests

例如，如果我想跟踪上MIDI键盘的价格变化。我需要从搜索中提取所有产品的URL，然后遍历产品的URL并提取每个产品的价格信息。我可以通过硬编码URL来获取单个产品的价格数据，但我无法找到自动获取多个产品的URL的方法。到目前为止我已经试过了，import reques

浏览 5提问于2022-02-22得票数 1

回答已采纳

2回答

使用BeautifulSoup从网页中提取某些内容时遇到困难

python、python-3.x、web-scraping、beautifulsoup

我使用python和BeautifulSoup库创建了一个脚本，用于从网页中抓取特定内容。我感兴趣的内容位于该页面的What does that mean下面。更具体地说，我想解析的内容： import requests from bs4

浏览 0提问于2019-06-06得票数 1

回答已采纳

2回答

使用python语言将html转换为文本

python

我想用Python从HTML文件中提取文本。我想要的输出基本上与从浏览器复制文本并将其粘贴到记事本中得到的输出相同。我想要一些比使用正则表达式更健壮的东西，因为正则表达式在格式不佳的HTML上可能会失败。我看到很多人推荐Beautiful Soup，但我在使用它时遇到了一些问题。首先，它会拾取不需要的文本，比如JavaScript源。而且，它不能解释HTML实体。例如，我<

浏览 0提问于2010-08-19得票数 2

回答已采纳

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

python、parsing、beautifulsoup、lxml

我有一个很大的HTML源代码，我想要解析(大约200,000)行，并且我相当确定在整个过程中都有一些糟糕的格式。我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感

浏览 0提问于2012-06-08得票数 1

2回答

href给出的Google搜索url是错误的

python、html、web、beautifulsoup

我通过使用soup.findAll('a')获取链接，然后使用‘’href‘。更具体地说，我使用的代码如下：from BeautifulSoup import BeautifulSoup, SoupStrainer main_site，a['href']可能会返回类似/dsoicjsdaoicjsdcj的<

浏览 2提问于2013-04-16得票数 0

1回答

从HTML中提取标记之间的特定文本部分

python、python-3.x、beautifulsoup

我想从HTML文件(“项目1A”部分)中提取特定章节中的文本。我想得到文本从“1A”开始，在内容部分，而不是从内容表，并停止在“项目1B”。但“1A”和“1B”有几个相同的案文。如何确定要开始和停止的具体文本。import requestsimport re url = "https://www.sec.gov/A

浏览 0提问于2019-05-08得票数 2

1回答

从网页构建大纲，python

python、html

我正在尝试创建一个函数，那就是打开网址，并从超文本标记语言code.The大纲应包括任何...tags.basically之间的文本只是为了创建一个特定的page.Each网页标题级别也应正确编号，与标题如何开始？

浏览 2提问于2014-07-27得票数 1

2回答

从html span检索内容字段

python、html、web-scraping

我在一个对象中有以下html代码： <span itemprop="price" content="187">187,00 €</span> 我的想法是获取span对象的内容(价格)。为了做到这一点，我正在执行以下操作： import requestsprice

浏览 19提问于2019-03-05得票数 1

回答已采纳

3回答

无法从get请求中获取HTML

javascript、python、html、web-scraping

我正在尝试获取一个可能是动态生成的HTML代码。我唯一想做的就是获取下一个页面的html代码。如果你点击这个按钮，一切当然都很完美。但是如果你检查这个页面的href，然后将其复制粘贴到浏览器的地址表单中并提交，你会得到一个看起来像这样的文本： {"paging":{"isLastPage":false},"pagination":{当你试图用它的头来做一个请求时，同样

浏览 0提问于2015-08-18得票数 2

2回答

从url文本自动生成文件名

python、filenames、python-requests

我正在解析一些内容从网络，然后保存到一个文件。到目前为止，我手动创建了文件名。这是我的密码：url = "http://www.amazon.com/The-Google-Way-Revolutionizing-Management/dp/1593271840requests.get(url).text.encode('utf-8') with open("html_output_t

浏览 5提问于2015-03-02得票数 1

回答已采纳

1回答

使用python加载iframe的内容

python、html、iframe、beautifulsoup

我需要使用python获取iframe的内容。请帮我获取iframe的HTM

浏览 3提问于2012-02-17得票数 0

4回答

如何使用Python获取网页的页面源代码？

python

我希望获取一个网页的源代码，并解析自己的个别标签。我如何在Python中做到这一点？

浏览 1提问于2011-11-05得票数 0

回答已采纳

1回答

如何同时提取类中的内容和标记？

python-3.x、beautifulsoup

我正在尝试提取abc中标记为<div class="sense">的内容。使用''.join(map(str, soup.select_one('.sense').contents))，我只能获取标记之间的内容，即xyz。为了完成我的工作，我还需要完整的<div class="

浏览 22提问于2020-07-28得票数 0

回答已采纳

1回答

如何使用BeautifulSoup获取嵌套标签的内容

beautifulsoup

如何使用BeautifullSoup获取结束跨度标记之前的数字？<span class="count">30.5K </span>usercount=soup.findAll('span',{'class

浏览 4提问于2014-01-08得票数 0

2回答

如何使用Python在表中刮取特定信息？

python、python-3.x

到目前为止，这是我的代码：import urllib.request soupdata = BeautifulSoup(page, "html.parser") for data in

浏览 9提问于2017-09-03得票数 0

回答已采纳

1回答

使用lxml python etree从html页面中删除特定元素

python、lxml、elementtree

我希望在xml树中加载页面的html内容，并使用python中的lxml删除其中的元素。我只想知道如何从内容中删除元素？

浏览 4提问于2013-11-24得票数 0

回答已采纳

1回答

如何从csv文件中特定列的所有行中解析HTML编码的文本？

python、python-3.x

下面是“content”列中数据外观的图像：我在pandas中加载了一个csv文件。在列'Content‘中，每一行都包含不同长度的html编码文本。有些就像500+的单词。我的目标是去掉“content”列的所有行中的所有html编码。到目前为止我只有这个。dataset = pd.read_csv('NuggetData.csv') “‘Con

浏览 44提问于2019-04-24得票数 1

2回答

用漂亮汤多个重复标签进行Web抓取

web-scraping、beautifulsoup、pycharm

这是我第一次在网络上刮擦，我正在跟踪这个。我正在使用这个从。我试着抓起"89426绿山路，阿斯托里亚，或97103。电话:503-325-9720“。我注意到在我的ul标记中有多个li和div class_=alert标记。因此，我不知道如何抓住一个具体的。下面是我尝试过的内容，但是继续从另一组ul/li<e

浏览 2提问于2020-04-20得票数 0

回答已采纳

1回答

无法使用Python加载iframe的内容

python、python-3.x、iframe、web-scraping、beautifulsoup

我需要使用python抓取iframe的内容。import reques

浏览 0提问于2018-04-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云