使用bs4美汤抓取多个页面-仅抓取第一页

使用bs4美汤（BeautifulSoup）可以方便地抓取多个页面的数据，以下是对该问题的完善且全面的答案：

美汤（BeautifulSoup）是一个Python库，用于从HTML或XML文件中提取数据。它提供了一种简单而直观的方式来遍历、搜索和修改HTML/XML文档的数据。

在使用美汤（BeautifulSoup）抓取多个页面时，我们可以按照以下步骤进行操作：

导入必要的库：

from bs4 import BeautifulSoup
import requests

发送HTTP请求获取页面内容：

url = "页面的URL地址"
response = requests.get(url)

解析页面内容：

soup = BeautifulSoup(response.text, 'html.parser')

使用美汤（BeautifulSoup）提供的方法来提取所需的数据：

# 示例：提取页面中的所有标题
titles = soup.find_all('h1')
for title in titles:
    print(title.text)

循环抓取多个页面：

# 示例：抓取多个页面的标题
urls = ["页面1的URL地址", "页面2的URL地址", "页面3的URL地址"]
for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    titles = soup.find_all('h1')
    for title in titles:
        print(title.text)

美汤（BeautifulSoup）的优势在于它提供了一种简单而灵活的方式来解析HTML/XML文档，使得数据提取变得更加容易。它支持CSS选择器和正则表达式等多种方式来定位和提取数据，同时还提供了一些便捷的方法和属性来处理文档结构。

美汤（BeautifulSoup）适用于各种场景，包括但不限于以下几个方面：

数据采集：可以用于抓取网页上的数据，如新闻、商品信息等。
数据清洗：可以用于清洗和整理爬取到的数据，去除不需要的标签或格式化数据。
数据分析：可以用于提取和分析网页上的结构化数据，如表格、列表等。
网页解析：可以用于解析网页的结构，提取出需要的内容。

腾讯云提供了一系列与云计算相关的产品，以下是一些推荐的产品和对应的介绍链接地址：

云服务器（CVM）：提供弹性计算能力，满足不同规模和需求的业务场景。产品介绍链接
云数据库MySQL版（CDB）：提供稳定可靠的云端数据库服务，支持高可用、备份恢复等功能。产品介绍链接
云存储（COS）：提供安全可靠的对象存储服务，适用于图片、音视频、文档等各种类型的数据存储。产品介绍链接
人工智能（AI）：提供丰富的人工智能服务，包括图像识别、语音识别、自然语言处理等。产品介绍链接
物联网（IoT）：提供全面的物联网解决方案，包括设备接入、数据管理、应用开发等。产品介绍链接

以上是对使用美汤（BeautifulSoup）抓取多个页面的完善且全面的答案，希望能对您有所帮助。

JSSoup是否支持提取文本？

、

JSSoup是否支持提取类似于美汤soup.findAll(text=True)的文本文档没有提供关于这个用例的任何信息，但在我看来应该有一种方法。为了澄清我想要的是从页面上抓取所有可见的文本。

浏览 19提问于2021-11-20得票数 1

回答已采纳

1回答

我用python创建了bs4网络抓取应用程序。我的程序返回空列表以供审阅。因为汤程序正常运行。 from bs4 import BeautifulSoup import requests import pandas as pd data = [] usernames = [] titles = [] comments = [] result = requests.get('https://www.kupujemprodajem.com/review.php?action=list') soup = BeautifulSoup(result.text, 'html.

浏览 7提问于2021-12-10得票数 -1

1回答

python中的多级/多页面web抓取

、、

我对数据抓取很陌生，我很少检查过关于刮伤和漂亮汤的资源，但是我正在努力解决下面的问题。起始页面URL为。我想要的信息，如价格，地毯是为每个项目，然后点击项目链接现在我需要收集部分的内容-概述，便利设施，规格等，然后回到以前的列表页面，并重复这对所有项目列出的页面。同时，点击next按钮并对所有条目重复相同的操作。请告诉我如何在python中为这个用例实现一个抓取算法。下面是我尝试过的一个非常基本的级别代码： > import pandas as pd from pandas > import ExcelWriter > import requests,re,csv

浏览 1提问于2019-01-15得票数 0

回答已采纳

3回答

每当我试图导入时，没有名为bs4的模块

、、、、

我试图创建一个web抓取程序，但是每当我编写：从bs4导入漂亮汤时，我总是会得到错误：no模块名为bs4。我安装了bs4 by：pip安装beautifulsoup4和pip安装bs4，但是没有工作。谢谢!

浏览 4提问于2021-10-03得票数 1

回答已采纳

1回答

使用BeaufifullSoup同时清理300多个页面

、

我有一个来自webget的txt文件，里面有300个html文件。(utf.txt) 我怎么才能清理它..。我试过美汤，但它只清洗了第一个。我需要的标签是"font“。 from bs4 import BeautifulSoup with open("utf.txt", encoding='utf-8') as fp: soup = BeautifulSoup(fp) print (soup.find_all('font')) 致以敬意，

浏览 12提问于2019-04-29得票数 0

1回答

内部网络刮板库

、

是否有不是用户或外部库的python web刮刀库？我发现了漂亮的汤、硒和请求作为用户创建的python web抓取库。在我开始做这个之前，我只想知道我是否不需要安装不同的库。

浏览 3提问于2022-03-13得票数 -1

回答已采纳

1回答

用精美的汤从HTML中抓取表格

、、、

我正在尝试用python3从中抓取数据。该网站包含了基于冠军的FPS多人游戏“圣骑士”的玩家数据。我想要得到一个基于冠军的球员的统计数据，如网站所示。我面临的问题是，当我用Chrome检查页面源代码时，我得到了包含"table“标签的代码，它是干净的，我可以很容易地抓取它： (我的要点链接) 但是当我创建soup对象时，我得到了一个不同的代码。当我转到页面源码时，它和汤是一样的。页面源代码中没有标记。(您可以查看页面源代码以更好地了解)。现在，我如何从网站上抓取冠军明智的数据？我正在为python3使用请求和漂亮的汤 import requests as req import bs

浏览 2提问于2018-06-26得票数 0

1回答

Beautiful / urllib不读取某些HTML标记

、、、

我最近开始使用美汤。为了练习，我试着抓取this website。有一些div标签似乎无法被抓取器访问，甚至URL阅读器似乎也无法读取这些div标签。超文本标记语言并没有表明它正在使用JavaScript来处理未被读取的部分，所以理论上我假设Selenium是不需要的。具体地说，名为"ajaxTarget“的ID下的div标记才是问题所在。下面的代码返回了一些元素，但是这个特定标签下的大多数div标签都没有被读取。 from urllib.request import Request, urlopen from bs4 import BeautifulSoup def main(

浏览 12提问于2019-03-13得票数 1

回答已采纳

1回答

一个特定的href爬行在python中的美丽的汤

、、、、

我正在努力学习美汤。在网站上，它有相同的href，但结果不同。例如，我的代码的结果是： 0001545654 6798 嗨 0001459640 发送 0001269765 CA 0001456527 CA 0001001379 气体我只想带上数字数字的URL =a href="/cgi-bin/browse-edgar?action=getcompany&CIK=0001545654&owner=exclude&count=40&hidefilings=0">0001545654 区域URL =a href="/cgi-b

浏览 3提问于2020-05-25得票数 0

3回答

如何使用Python的请求抓取超市营养数据？

、、

我想从这个页面上抓取营养数据：。我尝试了以下代码。 import requests, bs4 res = requests.get('http://www.mysupermarket.co.uk/tesco-price-comparison/Fruit/Tesco_Gala_Apple_Approx_160g.html') 但是当我使用浏览器检查页面时，响应的文本与我看到的HTML不匹配。所以我不能用美汤搜索它。我该如何解决这个问题呢？

浏览 14提问于2018-02-28得票数 0

2回答

从Selenium已经打开的网页中抓取BeautifulSoup

、、

我想从不同的网页上抓取一个由Selenium打开的网页。我在一个使用Selenium的网站上输入了一个搜索词，这让我进入了一个新的页面。我的目标是在这个新页面上创建一道汤。但是，汤是从我输入搜索词的前一页创建的。请帮帮我！ from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get('http://www.ratestar.in/') i

浏览 46提问于2019-01-26得票数 2

回答已采纳

2回答

表单，多个选择将导致每个选择的子问题。

这类表格可以用谷歌表格制作吗？问题：第一页:用户从菜单中选中几个框。第二页:对于第一页的每一个选择-给出几个选项。例如，用户从第一页中选择1和3：首页：色拉-√ 汤-X 午餐-√ 第二页：色拉选项：绿色红色午餐选择：维格肉

浏览 0提问于2016-09-16得票数 0

1回答

为什么通过漂亮汤导入的html与实际的html不同？

、

嗨，我正在制作一个程序，它在堆栈溢出中为搜索词抓取结果。我编写了代码以获得某些结果的最大页面。我需要知道抓取的最大页面，但是通过开发工具查看的html结构和通过漂亮汤获得的html信息是不同的。网址：下面是关于div标记的信息，它的类名是s-paginatino，通过开发工具。 from bs4 import BeautifulSoup import requests url = "https://stackoverflow.com/jobs?q=vue" result = requests.get(url) soup = BeautifulSoup(result

浏览 1提问于2020-08-30得票数 1

2回答

如何用美汤找到所有评论

、、、、

四年前有人问过，但现在BS4的答案已经过时了。我想要删除我的html文件中的所有评论使用美丽的汤。因为每个都是由BS4创建的，所以我认为下面的代码会起作用： for comments in soup.find_all('comment'): comments.decompose() 所以那不管用...如何使用BS4查找所有评论？

浏览 3提问于2015-10-15得票数 13

回答已采纳

1回答

如何使用python抓取多页网站并将数据导出到.csv文件中？

、、

我想使用python抓取以下网站，并需要将已抓取的数据导出到CSV文件中：该网站包括154页的相关搜索。我需要调用每个页面，并希望刮取数据，但我的脚本无法连续调用下一个页面。它只刮一页数据。在这里，我给值i<153，因此，这个脚本只运行154页，并给了我10个数据。我需要从第一页到第154页的数据如何在运行脚本后从所有页面抓取全部数据，以及如何将数据导出为CSV文件？？我的脚本如下 import csv import requests from bs4 import BeautifulSoup i = 0 while i < 153: url =

浏览 2提问于2016-07-24得票数 0

1回答

当表具有相同的类名时，如何解析特定的表

、、

编辑：我知道如何用漂亮汤解析一个表(我使用的是bs4)，但是我现在要抓取的特定页面有10个具有相同类值的表。我的代码片段适用于第一个表： data = [] table = YahooSoup.find('table', attrs={'class':'table-qsp-stats Mt(10px)'}) table_body = table.find('tbody') rows = table_body.find_all('tr') for row in rows:

浏览 1提问于2018-02-14得票数 0

2回答

无法使用beautifulSoup抓取网站

、、、

我试着用漂亮的汤(bs4)抓取页面，但在抓取数据时遇到了问题，我甚至提到了标题，正如答案中指出的这是我的代码 from bs4 import BeautifulSoup import requests headers = { 'Referer': 'hello', } r=requests.get ('https://www.doamin.com/bangalore/restaurants',headers=headers) print(r.status_code) 这就是我得到的错误 requests.exceptions.Connec

浏览 0提问于2018-05-24得票数 1

4回答

如何在BS4中有效抓取多个URL

、、、

我正在尝试找到一种在BS4中抓取多个页面的有效方法。我能够轻松地抓取第一页，并获得我需要的所有数据，但不幸的是，并不是所有的数据都在上面。还有另外两个页面需要抓取，而不是硬编码并更改第二个和第三个页面的URL，我想知道是否有更好的方法使用BS4在Python中实现这一点。唯一需要更改的部分是page=1到相应的页码(1、2、3)。 import csv import requests from bs4 import BeautifulSoup url = "https://www.congress.gov/members?q={%22congress%22:%22115%22}&

浏览 0提问于2018-04-04得票数 0

2回答

BeautifulSoup返回vs来自Chrome的视频源(Zillow)

、、、

我一直在尝试从Zillow中抓取代码，但是漂亮的汤给出的代码比来自chrome的view-source要少得多。下面是我的代码： from bs4 import BeautifulSoup import requests from bs4 import BeautifulSoup import requests url='https://www.zillow.com/homedetails/49-Mountain-St-Hartford-CT-06106/58139903_zpid/' html=requests.get(url) bs = BeautifulSoup(ht

浏览 6提问于2021-11-27得票数 0

1回答

网刮-硒BeautifulSoup -循环通过网页

、、

我试着弄点硒(只是学习一些东西--问了几个关于美汤的问题，并且有了一些很好的建议。) 总之，我只是简单地试着浏览页面，抓取div.details并打印它找到了多少(作为初始测试)。问题是，它似乎只是停留在第一页，并重新加载它被困在循环。我将如何改变它，使其循环通过page1，page2然后结束？ from bs4 import BeautifulSoup import requests import csv import pandas from pandas import DataFrame import re import os import locale os.environ["

浏览 4提问于2019-09-27得票数 1

回答已采纳

2回答

BeautifulSoup没有读取节标记中的html组件。

、、

我试图从以下链接：中删除数据，但是在执行以下代码时： import urllib from bs4 import BeautifulSoup import xml.etree.ElementTree as ET url= "https://www.kickstarter.com/projects/298226251/subform-a-modern-tool-for-digital-product-designer" html=urllib.urlopen(url).read() soup=BeautifulSoup(html,"html.parser")

浏览 4提问于2016-10-31得票数 0

回答已采纳

1回答

在html标记后获取值

、、

我使用的是python和漂亮的汤模块，也就是bs4。我抓取的页面格式如下： <div class="Halls_spec"> <b>Hall1</b> Thurs.-Wedn.: 21.30 我使用以下代码来获取信息： movie_date = table.select_one("div.Halls_spec") movieDate=(movie_date.text.strip()) 在那里我得到了以下字符串：Hall1 Thurs.-Wedn. 21.30 我应该如何分别获取霍尔名和日期值？

浏览 1提问于2018-08-08得票数 0

2回答

如何使用chrome的webdriver点击节点/角度脚本生成的‘下一页’按钮？

、、

我试图从一个网站上抓取数据，这个网站返回了跨越多个页面的搜索条件的结果……使用硒，Python上的精美汤。第一页很容易阅读。移动到下一页需要点击'>‘按钮。该元素如下所示： <a href ng-click="selectPage(page + 1, $event)" class="ng-binding">Next 我尝试了以下几种方法： browser = webdriver.Chrome() browser.get ("https:www....com/search/?lat=dfdfd ") page = b

浏览 24提问于2019-05-25得票数 1

回答已采纳

1回答

在Chrome中使用Headless模式效率较低？

、、、、

我使用selenium +美汤(使用selenium打开包含大量javascript的页面，并使用javascript命令将其转换为BeautifulSoup对象)来从体育网站上抓取数据，但由于某些原因，我不能使用无头浏览器。当我使用chromedriver实现无头浏览器时，我几乎不会像让chromedriver打开并运行时那样抓取大量数据。有没有人有类似的问题，或者有什么建议？ def get_bs(self, url, sport_url): driver = webdriver.Chrome(executable_path='drivers/chromed

浏览 2提问于2020-05-09得票数 0

2回答

如何刮取后续页并将输出放入数据帧中

、

我是网络汤的初学者，我无法在下面的 ()网站上抓取几个页面(5) &我不知道如何将输出放到一个dataframe (日期)中。谢谢! from bs4 import BeautifulSoup import requests for i in range(10): url= "http://www.newyorksocialdiary.com/party-pictures".format(i) r=requests.get(url) soup= BeautifulSoup(r.text) for r in soup.find

浏览 5提问于2017-01-30得票数 2

回答已采纳

1回答

如何在没有分页请求和美观的情况下抓取页面？

、、

我正在抓取web (使用Python请求和漂亮的汤)，我需要浏览项目列表中的所有页面，但我需要单击下一页，到目前为止，代码只返回代码中的第50行 import pandas as pd import requests from bs4 import BeautifulSoup url = 'http://sistemas.anatel.gov.br/se/public/view/b/licenciamento' antenas = requests.get(url) if antenas.status_code == 200: print('Requisição be

浏览 2提问于2021-02-23得票数 0

1回答

如何在centOS服务器中安装美汤？

、、

我刚从hostgator那里得到了一个新的主机服务器，它有centOS。现在我有了一个用python编写的从bs4导入BeautifulSoup导入的网页抓取程序如何在centOS服务器中安装美汤？请帮帮忙

浏览 0提问于2014-04-08得票数 2

回答已采纳

1回答

具有动态href的BeautifulSoup

、、

尝试python3.4漂亮汤从网页抓取一个压缩文件，这样我就可以解压缩并下载到文件夹中。我可以让漂亮的汤打印()页面上的所有href，但我想要一个特定的href，以结尾，"=Hospital_Revised_Flatfiles.zip“。这有可能吗？到目前为止，我只有网址上的href列表。文件的全部内容是，但是中间的疯狂内容在更新文件时会发生变化，并且无法知道它会更改到什么。请让我知道，如果有什么是我遗漏的问题，可能会有帮助。我使用Python3.4和BeautifulSoup4 (bs4) from bs4 import BeautifulSoup import request

浏览 3提问于2016-03-22得票数 0

回答已采纳

1回答

用BS4进行网络抓取:无法获取表

、

在浏览器中打开下面的URL时，你会看到一个紫色的图标，名字是“复制”。当您选择此图标(“复制”)时，您将实现一个完整的表，您可以粘贴到Excel中。如何将此表作为Python中的输入？我的代码在下面，它没有显示任何内容： import requests from bs4 import BeautifulSoup url = "http://www.kianfunds2.com/" + "ارزش-دارایی-ها-و-تعداد-واحد-ها" result = requests.get(url) soup = BeautifulSoup(result

浏览 1提问于2018-03-19得票数 0

回答已采纳

3回答

如何在网页抓取时登录网站

、、

我正在制作一个web刮刀，它可以将我的YouTube频道统计数据带回到python中，所以我去了我的YouTube站点，复制了这个链接并用bs4粘贴它打印了汤。我完成了整个测试，并创建了一个html文件，当我查看它时，它是YouTube登录页面。因此，现在我想登录这个(假设我可以在文本文件中提供密码和电子邮件id )，以便刮除yt的统计数据。我不知道这个(我对网络抓取是新的)。

浏览 3提问于2021-01-24得票数 0

回答已采纳

1回答

用美丽汤抓取动态网站的问题

、、、

我想从网站上抓取犯罪新闻文章，但汤对象不返回所需的div标签，有人能给我原因吗？ import requests from bs4 import BeautifulSoup page = requests.get("https://www.nst.com.my/news/crime-courts?page=1") soup = BeautifulSoup(page.text, 'html.parser') print(soup)

浏览 1提问于2021-12-29得票数 0

1回答

Webscraping事件名称、位置、价格

、、、

我正在使用BeautifulSoup在木星，我想知道我如何能够刮这个网站的事件名称，地点和价格。我在检查工具里找到了他们的位置。现在，我找到了事件的名称，但我觉得我的过程是漫长和不必要的。我的计划是把所有从这个页面抓取的事件数据放到一个数据框架中。 import pandas as pd import requests import bs4 from bs4 import BeautifulSoup kpbs_link = "https://www.kpbs.org/events/search/?unifyevents=true&vertical_events=true

浏览 2提问于2020-03-08得票数 0

1回答

在美丽的汤中运行JavaScript

、、

我发现你不能在美丽的汤中使用javascript。我有这样的代码： from bs4 import BeautifulSoup import requests import warnings import time warnings.filterwarnings("ignore", category=UserWarning, module='bs4') url = ["https://google.com"] # add header headers = {'User-Agent': 'Mozilla/5.0 (X11

浏览 0提问于2019-10-06得票数 0

1回答

TypeError：'ResultSet‘对象不可调用-带有BeautifulSoup的Python

、、

这里是python的新手，当尝试设置一些代码从网页列表中抓取数据时，会不断地遇到错误。其中一个页面的链接是- 和我试图获取‘会员编号’，‘类别’，‘部门’，‘国家’等信息，并将其全部导出到一个电子表格。代码： from bs4 import BeautifulSoup as soup from urllib.request import urlopen import requests pages = [] for i in range(1, 10): url = 'https://rspo.org/members/' + str(i) pages.app

浏览 0提问于2018-03-02得票数 0

回答已采纳

1回答

返回RSS的所有页面

、、

我正在使用python从rss页面抓取xml。我正在使用漂亮的汤来解析xml。输入是rss页面，例如，可以在上找到。我使用了几个与上面的链接格式类似的博客，每个博客的xml都可以在/feeds/posts/default?alt=rss中找到每个URL的数据使用urllib2下载并保存在变量xml中然后，我的python代码使用漂亮的方法来解析xml。 bs = BeautifulSoup(xml) items = bs.rss.channel.findAll("item") print len(items) #returns 25 for any site 我相信我只

浏览 0提问于2014-12-04得票数 0

1回答

从magibricks.com中抓取数据

、、

我试图从magicbricks.com中抓取数据，但当我试图通过手动单击页面底部的第二个页面来更改页面时，页面链接保持不变。我得到了同样的数据。我如何加载剩余的页面。例如:这是第一页的链接。第二个页面的链接是相同的，只是页面内容发生了变化 import pandas as pd from pandas import ExcelWriter import requests,re,csv from bs4 import BeautifulSoup for i in range(1,5): # Number of pages plus one url = "ht

浏览 1提问于2018-08-22得票数 0

3回答

使用Python和BeautifulSoup抓取多个页面

、

我正在尝试使用BeautifulSoup在Python中抓取许多页面，但没有得到积极的结果。我尝试使用request.get()和session.get()。我应该抓取的页数是92。 import requests from bs4 import BeautifulSoup import urllib.request with requests.Session as session: count = 0 for i in range(92): count+=1 page = "https://www.paginegialle.it/l

浏览 24提问于2020-02-02得票数 1

2回答

使用Python进行Web抓取有时会产生HTTP 429

、、、

我正试图为视频抓取编辑页面。我使用python和漂亮的汤来执行job.The代码，有时返回结果，有时在重新运行代码时不返回，我不知道哪里出错了。有人能帮忙吗？我是蟒蛇的新手，所以请容忍我。 import requests from bs4 import BeautifulSoup page = requests.get('https://www.reddit.com/r/FortNiteBR/comments/afjbbp/just_trying_to_revive_my_buddy_and_then_he_got/') soup = BeautifulSoup(page

浏览 1提问于2019-01-14得票数 1

回答已采纳

3回答

如何从一个网站抓取多个页面

、

我想从一个site.the模式中删除多个页面，如下所示：。我尝试了三种方法来抓取所有这些页面，但每种方法都只抓取了第一页。我展示了下面的代码，任何人都可以检查，并告诉我是什么问题，将非常感谢。 ===============method 1==================== import requests for i in range(5): # Number of pages plus one url = "https://www.example.com/S1-3-{}.html".format(i)

浏览 2提问于2018-03-05得票数 0

1回答

如何用美汤抓取多页搜索结果

、、

使用以下url：我正在尝试抓取这里显示的表格的结果。问题是，不管怎样，搜索结果被限制在25个/页面，正如你所看到的--在多个页面上有数千个结果。我已尝试更改开始日期和结束日期，但无济于事。当我用漂亮的汤刮的时候，我只能刮掉第一页的结果，然后刮就停止了。我在抓取(在本例中)全部85页的结果时遗漏了什么？(并且-我的代码是成功的，但只返回结果的第1页的抓取结果)。下面是我的代码： blah = [] html = 'https://www.prosportstransactions.com/basketball/Search/SearchResults.php?Player=&

浏览 8提问于2020-02-26得票数 0

回答已采纳

3回答

如何使用漂亮的汤从商店中刮取数据

、、

我现在是一个学生，我现在学习的是美丽的汤，所以我的讲师就像我一样从商店里收集数据，但是我不能擦拭产品的细节。目前，我正在尝试从中抓取数据。我只想弄清楚产品的名称和价格。有人能告诉我为什么我不能用漂亮汤刮数据吗？这是我的代码： from requests import get from bs4 import BeautifulSoup url = "https://shopee.com.my/shop/13377506/search?page=0&sortBy=sales" response= get (url) soup=BeautifulSoup(response

浏览 2提问于2020-05-28得票数 3

回答已采纳

1回答

使用html.parser的漂亮汤解码引号有问题

、、

我有一个简单的程序来抓取福克斯新闻的一篇文章的文本，但出于某种原因，我很难让引号被正确解码。 from bs4 import BeautifulSoup import urllib r = urllib.urlopen('http://www.foxnews.com/politics/2016/10/14/emails-reveal-clinton-teams-early-plan-for-handling-bill-sex-scandals.html').read() soup = BeautifulSoup(r, 'html.parser') for i

浏览 0提问于2016-10-14得票数 0

回答已采纳

1回答

如何为页面创建范围(从1页到x)

、、

from bs4 import BeautifulSoup import requests url="https://bararanonline.com/letter/%D5%A1?page=1" response=requests.get(url) soup=BeautifulSoup(response.content, "lxml") words=soup.find_all('a',"word-href") for word in words: print(word.text) 所以，我拿到了第一页。现在，我想从所有页面中

浏览 2提问于2022-02-10得票数 0

回答已采纳

1回答

如何在站点URL的所有页面中进行分页？

、、、

我试图从一个网站的url中抓取特工的名字、电话和电子邮件。我已经完成了从第一页开始的抓取工作。但是我不能对其余的页面进行分页。因为所有的页面似乎都有相同的URL。URL中没有页码作为查询字符串。我使用的是requests和beautifulsoup btw。只要帮我翻遍所有的页面就行了。谢谢。。网址为here 第一页的代码如下： import requests from bs4 import BeautifulSoup as bs count = 0 response = requests.get('https://propertycentral.co.za/propert

浏览 7提问于2020-04-18得票数 1

回答已采纳

1回答

从内部类中抓取

、

我想从Merriam Webster Dictionary中抓取定义。例如。这是我想要抓取的代码片段。 <div class="definition-block def-text"> <ul class="definition-list no-count"> <li> <p class="definition-inner-item"> <span><span c

浏览 1提问于2016-02-26得票数 1

3回答

Web从ajax页面抓取数据

、、、、

我正在尝试从here上抓取职位。我正在学习python抓取技术，但我遇到了抓取像这样的Ajax页面的问题。我能够使用第一页的以下代码获得开发人员工具的响应数据。如何从这些数据中提取职位。 from bs4 import BeautifulSoup import requests import json s = requests.Session() headers={"User-Agent":"Mozilla/5.0"} r=s.get('https://epco.taleo.net/careersection/alljobs/jobsearch.f

浏览 54提问于2021-07-21得票数 1

1回答

在BeautifulSoup 4.6中，从两个超文本标记之间提取超文本标记语言

、、

我想用bs4得到两个标签之间的超文本标记。有没有办法在美汤里做javascript的.innerHTML？这是一段代码，用于查找具有类"title“的span，并从中获取文本。 def get_title(soup): title = soup.find('span', {'class': 'title'}) return title.text.encode('utf-8') 此函数错误地返回不带下标的跨度文本。'Title about H2O and CO2' 以下代码是title = soup.fin

浏览 1提问于2017-10-05得票数 1

1回答

使用漂亮的汤来模拟页面点击来访问页面上的所有HTML？

、、

我正在尝试抓取以下网站： https://www.bandsintown.com/?came_from=257&sort_by_filter=Number+of+RSVPs 使用下面的代码，我可以成功地抓取页面上列出的事件： from bs4 import BeautifulSoup import requests url = 'https://www.bandsintown.com/?came_from=257&sort_by_filter=Number+of+RSVPs' response = requests.get(url) soup = Beauti

浏览 6提问于2019-01-07得票数 2

1回答

在使用Beautiful Soup时删除html标签的问题

、、

我正在使用漂亮的汤从网站上抓取一些数据，但我不能在打印数据时删除数据中的html标记。引用的代码是： import csv import urllib2 import sys from bs4 import BeautifulSoup page = urllib2.urlopen('http://www.att.com/shop/wireless/devices/smartphones.html').read() soup = BeautifulSoup(page) soup.prettify() for anchor1 in soup.findAll('div&

浏览 1提问于2012-12-19得票数 1

回答已采纳

1回答

我怎样才能从barchart.com上抓取这些代码呢？

、、、

我正在尝试使用“美丽汤”来从这个页面上抓取代码列表：我的代码从页面中返回了大量的HTML，但是我找不到任何带有CTRL+F的代码。如果有人能告诉我如何访问这些代码，我将不胜感激！代码： from bs4 import BeautifulSoup as bs import requests headers = {'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36

浏览 2提问于2021-08-03得票数 0

回答已采纳