使用BeautifulSoup从多个页面进行多线程文件下载的网络抓取

BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。它提供了一种简单而灵活的方式来遍历解析文档树，搜索特定的标签或内容，并提取所需的数据。

多线程文件下载是一种通过同时使用多个线程来加快文件下载速度的技术。通过将文件分成多个部分，并使用多个线程同时下载这些部分，可以显著提高下载速度。

在进行多线程文件下载的网络抓取时，可以使用以下步骤：

导入必要的库：

import requests
from bs4 import BeautifulSoup
import threading

定义一个函数来下载文件：

def download_file(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as file:
        file.write(response.content)

使用BeautifulSoup解析多个页面的URL：

urls = ['url1', 'url2', 'url3']  # 替换为实际的URL列表
for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    # 根据需要使用BeautifulSoup提取URL或其他信息

创建多个线程来下载文件：

threads = []
for i, url in enumerate(urls):
    filename = f'file{i}.txt'  # 替换为实际的文件名
    thread = threading.Thread(target=download_file, args=(url, filename))
    thread.start()
    threads.append(thread)

# 等待所有线程完成
for thread in threads:
    thread.join()

这样，就可以使用BeautifulSoup从多个页面进行多线程文件下载的网络抓取了。

在腾讯云中，相关的产品和服务可以使用以下进行实现：

云服务器（CVM）：提供虚拟化的计算资源，可用于运行Python脚本和多线程下载任务。
- 产品介绍链接：https://cloud.tencent.com/product/cvm

对象存储（COS）：用于存储下载的文件。
- 产品介绍链接：https://cloud.tencent.com/product/cos
云数据库MySQL版（CMYSQL）：可用于存储和管理下载任务的相关数据。
- 产品介绍链接：https://cloud.tencent.com/product/cdb_mysql

请注意，以上仅为腾讯云的一些相关产品示例，其他云计算品牌商也提供类似的产品和服务。

减少创建BeautifulSoup对象时的开销

、

我对网络抓取和使用Python语言中的BeautifulSoup库非常陌生，所以我遇到了这个问题:我必须从大量的网页中下载和抓取内容，下载它们不是问题，但是当我为每个页面创建一个BeautifulSoup对象(为了解析它)时，我的程序变得非常慢。我在问您，是否有一种方法可以减少这种开销，并且可能避免为我要分析的每个新页面创建一个不同的全新BeautifulSoup对象。下面是我执行的代码： for action in actions[:100]: #Here I download the pages I need curr_url = base_url

浏览 0提问于2020-10-08得票数 0

2回答

是否使用线程从网络下载文件

、、

我需要下载大量的文件从网络上基于一个关键字。我所遵循的步骤是使用抓取找到到文件的链接使用WebClient.DownloadData()下载byte[]将arr保存到一个文件. 创建一个线程来下载每个文件以获得更好的性能是一个好主意吗？任何建议。谢谢 foreach (string each in arr) { Thread t = new Thread( new ThreadStart( delegate

浏览 4提问于2010-07-21得票数 2

3回答

如何使用python同时下载网页？

、

我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls，其中x是标识页面的编号。现在，我正在使用urlretrieve下载所有页面下面是我的脚本的基本形式： for i in range(1,1001): urlretrieve('http://someurl.com/getPage?id='+str(i) , str(i)+".html) 现在，我的问题是-可以同时下载网页吗？因为，在这里，我阻塞了脚本，等待页面下载。我可以要求Python打开多个到服务器的连接吗？

浏览 14提问于2015-05-18得票数 1

回答已采纳

3回答

网络刮擦冠状病毒互动图

、、、、

我正在尝试抓取新冠肺炎的相关数据。我可以从网站上下载一些数据，例如，病例总数，但不能从交互式图表中下载数据。我通常通过在inspect element页面的'network‘中查找源代码来获取json的交互图。然而，我找不到交互式图形的“网络”来抓取。有没有人可以帮我从“总死亡人数”图中抓取数据？或者来自网站的任何其他图表。谢谢。只是想说清楚。我不想从国家/地区表中抓取数据。我已经这么做了。我想做的是从图表中获取数据。例如，死亡比率图与日期或活动病例与时间日期图中的数据。谢谢 import requests import urllib.request import time i

浏览 2提问于2020-03-06得票数 0

1回答

避免使用优美汤和urllib.request下载图片

、、、

我使用BeautifulSoup ('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是，当我在Acitivity中查看网络部分时，我看到python下载了很多数据。这意味着不仅文本被下载，而且图像也被下载。在使用BeautifulSoup进行网络抓取时，有可能避免下载图片吗？

浏览 2提问于2016-04-03得票数 0

回答已采纳

2回答

Python从多个页面请求.get()？

、、、

我正在学习如何使用python进行网络抓取，我想知道是否可以使用requests.get()抓取两个页面，这样我就不必进行两个单独的调用和变量。例如： r1 = requests.get("page1") r2 = requests.get("page2") pg1 = BeautifulSoup(r1.content, "html.parser") pg2 = BeautifulSoup(r2.content, "html.parser") 如你所见，这里有重复的代码。有什么办法可以解决这个问题吗？谢谢!

浏览 0提问于2017-06-03得票数 2

2回答

用于下载Python中NCBI文件的多线程

、、

因此，最近我承担了从ncbi数据库下载大量文件的任务。然而，我遇到了不得不创建多个数据库的情况。这里的代码可以从ncbi网站下载所有病毒。我的问题是有没有办法加快下载这些文件的过程。目前，该程序的运行时间超过5小时。我已经研究过多线程，并且无法让它工作，因为其中一些文件需要超过10秒才能下载，而且我不知道如何处理延迟。也有一种处理urllib2.HTTPError: HTTP错误502:坏网关的方法。有时，我会通过某些重新启动和重新启动的组合来获得这个结果。这会使程序崩溃，我必须通过更改for语句中的0来重新启动从不同位置下载的文件。 import urllib2 from Beautifu

浏览 4提问于2014-03-23得票数 2

回答已采纳

2回答

在硒上使用BeautifulSoup和Geckodriver有什么区别？

、、、

我现在刚接触到漂亮的汤和硒3的geckodriver，我正在做一个必须从网页中抓取URL的项目。我发现它们都是用于网络抓取，但无法得到两者之间的区别。BeautifulSoup和Geckodriver有什么区别？谢谢你的帮助。

浏览 0提问于2018-08-23得票数 2

回答已采纳

1回答

使用单个URL在多个页面上刮取表

、、、

我正试着从Fangraphs中抓取数据。表格被分成21个页面，但所有页面都使用相同的url。我对webscraping (或者一般的python )非常陌生，但是Fangraphs没有公共API，所以抓取页面似乎是我唯一的选择。我目前正在使用BeautifulSoup来解析超文本标记语言代码，我能够抓取初始表，但那只包含前30个球员，但我想要整个球员池。两天的网络搜索，我被卡住了。链接和我当前的代码如下所示。我知道他们有一个下载csv文件的链接，但在整个赛季中这会变得单调乏味，我希望加快数据收集过程。任何方向都会有帮助，谢谢。 https://www.fangraphs.com/projec

浏览 21提问于2020-04-18得票数 1

回答已采纳

2回答

可以从亚马逊网络服务S3批量下载吗？

、、

我想知道是否有可能，如果可以，如何从亚马逊S3批量下载？从亚马逊网络服务软件开发工具包文档来看，似乎getObject S3方法支持一次只获取一个对象但是在亚马逊网络服务S3中有一个叫做S3 batch operations的功能不确定S3批处理操作是否也支持创建用于下载多个对象的作业的用例？我正在开发的应用程序正在使用AWS Lambda，我要获取的批量文件主要是图像，因此，下载操作将在100s的文件上完成，这些文件的最终zip大小可以超过250MB 有没有人有过这样的用例？如果是这样，如何实现呢？

浏览 6提问于2019-12-12得票数 2

2回答

是否有可能强迫urllib只获取普通html，而不是获取图像、脚本等？

、

我使用urllib从网络上抓取数据。我试图获取一个网站的不同页面，使用完全相同的模板，图像和JS代码(例如，不同的用户配置文件)。问题是模板图像和脚本太重了，我不需要它们。我唯一关心的是页面的普通HTML。有没有任何方法迫使urllib只获取普通的HTML，或者至少从python代码中执行一种良好的缓存机制？

浏览 0提问于2015-12-19得票数 1

回答已采纳

4回答

构建web爬虫

、、

我目前正在开发一个内置网络爬虫的自定义搜索引擎。由于某种原因，我不喜欢多线程，因此到目前为止，我的索引器是以单线程的方式编写的。现在，我在构建爬虫时遇到了一个小难题。有人能建议一下，先抓取1个页面再索引，还是先抓取1000+页面和缓存，然后再索引，哪个更好？

浏览 2提问于2009-05-14得票数 1

2回答

请求代码以抓取分页的网站

、、

我正在尝试从Wikipedia中抓取几个编号的页面(以年份为单位)： for year in range(1991, 2000, 1): url = "https://en.wikipedia.org/wiki/" + str(year) source = requests.get(url) x = BeautifulSoup(source.text, "html.parser") x 但是，当检查'x‘时，我看到我只下载了1999年的页面。从1991年到2000年，我怎么才能抓取我需要的所有页面呢？并将它们放在字典中，其中包含每年

浏览 1提问于2015-09-19得票数 0

1回答

如何在Vba Selenium (Edge)中启用多次下载

、、、

我正在制作一个网络抓取程序，在同一个页面中我需要下载多个文件。但是，当我尝试下载第二个文件时，它会弹出一条消息，允许多次下载。我已经尝试过这样的方法： driver.SetPreference "download.default_directory", "C:\PDF_folder\" driver.SetPreference "download.directory_upgrade", True driver.SetPreference "download.prompt_for_download", False 但是允许窗口仍

浏览 7提问于2022-08-18得票数 1

回答已采纳

2回答

如何使用Python从该站点抓取所有数据

、、、

我对网络抓取还是个新手。我想从中抓取数据，主要是右边的数据，其中有国家的年份、国家和国内生产总值。我的代码如下： from urllib.request import urlopen from bs4 import BeautifulSoup data = "http://databank.worldbank.org/data/reports.aspx?source=2&series=NY.GDP.MKTP.CD&country=#" page = urlopen(data) soup = BeautifulSoup(page,'html.parse

浏览 28提问于2017-02-13得票数 0

1回答

这是在Python中同时抓取多个URL的正确方法吗？

、、

我是Python的新手，我正在创建一个用于抓取torrent站点的网络抓取器。为了获得磁铁链接，我让它抓取了每一个torrent的网址。问题是在每次搜索中有大约20个链接需要抓取。这需要很长时间才能完成。因此，我使用numpy将URL抓取列表一分为三，并尝试使用线程同时抓取所有这三个列表。它看起来更快，但我不确定这是不是正确的方法。这是一次抓取多个urls的正确方法吗？谢谢 from bs4 import BeautifulSoup import re import np import pandas as pd import sys import cfscrape import threa

浏览 27提问于2020-09-12得票数 0

回答已采纳

1回答

用python抓取出现在单击中的表

、、、、

我想从这个中抓取信息。具体来说，我想刮表，当你点击“查看所有”下的“十大控股”(你必须在页面向下滚动一点)。我对网络抓取很陌生，并且尝试过使用BeautifulSoup来做这件事。但是，似乎存在一个问题，因为我需要考虑"onclick“函数。换句话说:我直接从页面中抓取的HTML代码不包括我想要获得的表。我对我的下一步感到有点困惑:我是应该使用selenium之类的东西，还是应该以更简单/更有效的方式来处理这个问题？谢谢。我现在的代码是： from bs4 import BeautifulSoup import requests Soup = BeautifulSoup

浏览 1提问于2017-09-10得票数 1

回答已采纳

1回答

使用请求和BeautifulSoup的Python多线程

、、、、

我正在写一个网络爬行器。我本可以只使用scrapy，但我决定从头开始编写，这样我就可以练习了。我已经创建了一个使用requests和BeautifulSoup成功工作的抓取器。它浏览大约135个页面，每个页面上有12个项目，然后抓取链接，然后从链接目的地抓取信息。最后，它将所有内容写入CSV文件。它只抓取字符串，不下载任何图像或任何类似…就目前而言。有问题吗？它相当慢。仅从一个页面的内容抓取所有内容大约需要5秒，因此时间135大约是11分钟。所以我的问题是，我如何在我的代码中实现线程，这样它才能更快地获取数据。代码如下： import requests from bs4 import

浏览 0提问于2017-01-02得票数 0

2回答

需要在Filemaker中从Web查看器中抓取图像

我已经让我的网络浏览器指向google静态地图，我想弄清楚如何保存图像文件以便稍后离线查看。如果你不熟悉，谷歌静态地图页面仅仅是包含单个图像的html页面。它们看起来像这样。 <html> <body> <img... src=""> </body> </html> 我基本上需要从web查看器中抓取图像数据来存储它，或者可能只是从HTML中抓取source标签来以某种方式下载它。有没有人知道我该怎么做？

浏览 1提问于2013-05-16得票数 0

回答已采纳

1回答

Python BeautifulSoup -如何在<td>中的值中爬行链接<a>

、、

我正在学习网络抓取，并试图从下面的链接网络抓取数据。有没有办法让我从每个td的链接以及爬行？网站链接：这是我迄今为止所做的。 from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://eecs.qmul.ac.uk/postgraduate/programmes/" html = urlopen(url) soup = BeautifulSoup(html, 'lxml') table_list = [] rows = soup.find_all('

浏览 3提问于2021-12-05得票数 1

回答已采纳

1回答

如何使用python抓取多页网站并将数据导出到.csv文件中？

、、

我想使用python抓取以下网站，并需要将已抓取的数据导出到CSV文件中：该网站包括154页的相关搜索。我需要调用每个页面，并希望刮取数据，但我的脚本无法连续调用下一个页面。它只刮一页数据。在这里，我给值i<153，因此，这个脚本只运行154页，并给了我10个数据。我需要从第一页到第154页的数据如何在运行脚本后从所有页面抓取全部数据，以及如何将数据导出为CSV文件？？我的脚本如下 import csv import requests from bs4 import BeautifulSoup i = 0 while i < 153: url =

浏览 2提问于2016-07-24得票数 0

2回答

通过java中的FTP异步下载文件

、、、

我需要通过java的FTP下载多个文件。为此，我使用FTPClient编写了一段代码，该代码将文件逐个下载。我需要从服务器获取文件并下载到另一个网络。在编写了代码之后，我发现下载每个文件需要更多的时间，因为文件大小很大(超过10 as )。我决定多线程进程，即一次运行多个文件。有人能帮我在多线程环境下帮我写FTP吗？尽管我觉得多线程不会有帮助，因为网络的带宽将保持不变，并且将被分配到多个线程中，导致再次缓慢的下载。请建议！！

浏览 2提问于2018-07-16得票数 0

1回答

Python web抓取暂停

、、

我有以下代码： #!/usr/bin/env python from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() mech.set_handle_robots(False) url = "http://storage.googleapis.com/patents/retro/2011/ad20111231-02.zip" page = mech.open(url) html = page.read() soup = BeautifulSoup(html)

浏览 0提问于2012-10-11得票数 0

回答已采纳

1回答

Python/BeautifulSoup抓取中的多线程根本不会加速

、、、、

我有一个csv文件("SomeSiteValidURLs.csv")，其中列出了我需要抓取的所有链接。代码工作正常，将遍历csv中的urls，抓取信息并记录/保存在另一个csv文件("Output.csv")中。然而，由于我计划在网站的很大一部分(对于>10,000,000个页面)这样做，速度是重要的。对于每个链接，抓取并将信息保存到csv大约需要1秒，对于项目的规模来说，这太慢了。所以我加入了多线程模块，令我惊讶的是它根本没有加速，它仍然需要1个人的链接。我做错什么了吗？有没有其他方法可以加快处理速度？如果不使用多线程： import urllib2

浏览 8提问于2014-08-19得票数 10

回答已采纳

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

3回答

保存网页源代码的固有方法

、

我读了很多关于网络抓取的答案，都是关于BeautifulSoup，Scrapy e.t.c。执行网络抓取。有没有一种方法等同于从web浏览器中保存页面的源代码？也就是说，在Python中，有没有一种方法可以将它指向一个网站，并让它将页面的源代码保存到一个只包含标准Python模块的文本文件中？这就是我要说的： import urllib f = open('webpage.txt', 'w') html = urllib.urlopen("http://www.somewebpage.com") #somehow save the we

浏览 1提问于2012-11-11得票数 16

回答已采纳

2回答

在美汤中抓取Wiki页面

、、、

我正在尝试从维基页面中抓取一些文本，特别是我正在使用BeautifulSoup的，或者至少尝试……我没有真正的网络抓取经验。这是我到目前为止的代码。 import urllib import urllib.request from bs4 import BeautifulSoup soup =BeautifulSoup(urllib.request.urlopen('http://yugioh.wikia.com/wiki/Card_Tips:Blue-Eyes_White_Dragon').read()) for row in soup('span', {

浏览 2提问于2013-04-04得票数 1

1回答

如何在Django中使用BeautifulSoup？

、、、

我试图用Django创建一个网站，它基本上是从谷歌新闻中抓取数据并将其放到我的网站上。但我不知道如何在我的Django HTML文件中使用从google新闻中提取的数据。我有没有办法做到这一点。而且，这会大大降低网站的速度，所以这是最好的方法吗？ web抓取代码： from bs4 import BeautifulSoup import requests url = "https://news.google.com/?hl=en-IN&gl=IN&ceid=IN:en" headers = { "User-Agent": 'Mo

浏览 1提问于2019-09-01得票数 2

2回答

如何将图像保存到网页抓取的文件夹中？(Python)

、、、、

如何使我从网络抓取中获得的每一张图像都存储到一个文件夹中？我现在使用谷歌Colab，因为我只是在练习一些东西。我想把它们存储在我的Google文件夹中。这是我的网页抓取代码： import requests from bs4 import BeautifulSoup def getdata(url): r = requests.get(url) return r.text htmldata = getdata('https://www.yahoo.com/') soup = BeautifulSoup(htmldata, 'html.parser

浏览 8提问于2022-05-20得票数 1

回答已采纳

1回答

如何更改文件扩展名？

、、、

我正试图从.xlsx网站上抓取一个‘’文件。遗憾的是，我一直收到一条错误消息，上面写着：Excel cannot open the file '2017-FF-For-Website-7-10-2017.xlsx because the file format or file extension is not valid. verify that the file has not been corrupted and that the file extension matches the format of the file。我做了一些研究，它说解决这个问题的方法是将文件扩展名改为“.

浏览 1提问于2017-08-04得票数 3

回答已采纳

1回答

使用请求获取自动下载链接

、、、、

我正在尝试使用从Bs4抓取自动启动的直接下载链接直接下载链接每次都是自动生成的，直接下载链接也会在5秒后自动启动，我想获得直接下载链接并将其存储在"Link.txt“文件中。 import requests import bs4 req = requests.get('https://www.yourupload.com/download?file=2573285', stream = True) req = bs4.BeautifulSoup(req.text,'lxml') print(req)

浏览 5提问于2020-03-09得票数 0

回答已采纳

1回答

从网页中提取文本

、、、、

我正在尝试从开始解析网页中的文本。这个页面有到最终页面的链接(也可以手动移到文本文件中，以避免额外的编码工作)。在左侧的最后一页上有一个页面索引。并且每个页面也有一个页面索引。页面索引位于每个页面的顶部。从这个项目列表中，我只需要提取一行以“Configuring”、“Configuration Examples”或“Example”开头的行。这项任务在手动执行时似乎很简单，但它令人望而生畏，很难跟踪。如果可以从任何工具中提取此信息，则该工具会在找到时按分层顺序爬行和记录项目。可能是一些简单的格式，其中还包括超链接，或者至少是普通的制表符分隔的文本文件。网页上的信息是公开的，可以下载。如果

浏览 0提问于2012-09-08得票数 0

1回答

在覆盖/新窗口上显示的数据

、、、

我对网络抓取是完全陌生的，我想从：抓取评论和属性回复。然而，我获得的HTML似乎是针对宿舍页面，而不是带有评论的重叠页面，我想知道如何从评论面板中获取和刮取。我可以使用下面的片段来抓取用户评论， from bs4 import BeautifulSoup url = 'https://www.hostelworld.com/hosteldetails.php/HI-NYC-Hostel/New-York/1850#reviews' response = requests.get(url) SoupPage = BeautifulSoup(response.text, &

浏览 0提问于2019-05-25得票数 0

回答已采纳

3回答

Python: Beautifulsoup返回None或[]

、、、、

您好，我正在练习我的请求和网络抓取技能，所以我试图抓取youtube上的热门页面，并拉出热门视频的标题，这是这个链接这是我正在运行的代码 import requests from bs4 import BeautifulSoup url = 'https://www.youtube.com/feed/trending' html = requests.get(url) soup = BeautifulSoup(html.content, "html.parser") a = soup.find_all("a", {"id":

浏览 0提问于2018-12-31得票数 3

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

1回答

Python AttributeError：“NoneType”对象没有属性getText

、、

这是我第一次来这里！我是python的新手，我遇到错误:"'NoneType‘对象没有getText属性。“我正在使用Requests和BeautifulSoup库。它是关于chess.com的，这是一个国际象棋网站，你所有的数据游戏都可以在这里下载。我正在学习网络抓取和数据可视化，我的想法是使用我的信息。代码是： text = page.text b = BeautifulSoup(text, 'html.parser') content = b.find('span', attrs={'class': re.compil

浏览 9提问于2020-11-01得票数 0

1回答

ImportError: mac上没有名为bs4的模块

、、

我今晚坐下来，决定如何使用蟒蛇。受到这篇网页抓取文章的启发。cam.ly/danesblog/2011/01/craigslist-arbitrage/ 在阅读完教程之后，我： 1)下载和安装python：前3.3，然后2.7 2)下载的www.crummy.com/software/BeautifulSoup/bs4/download/ :bs4 3)遵循Brian的指示：尝试了easy_install和python setup.py安装方法。我仍然得到"ImportError:没有名为bs4的模块“ Python安装在应用程序文件夹中，bs4包自动安装在库中，这是问

浏览 1提问于2013-02-26得票数 3

2回答

如何在js重新加载后从网络流中刮取m3u8 (Python)

、、、、

我使用beautifulsoup和requests运行了一个python程序来抓取嵌入的视频URL，但是要下载这些视频，我需要绕过一个广告弹出窗口，javascript重新加载，直到m3u8文件开始出现在网络流量中；因此，我需要模拟单击以到达javascript重新加载(如果有比selenium更好的方法，尝试减少脚本依赖)，然后当m3u8文件出现时，我需要获得它们的url。

浏览 6提问于2019-12-07得票数 0

4回答

涉及具有属性的HTML标记的Python web抓取

、、、

我正在尝试制作一个网络爬行器，它将解析出版物的网页并提取作者。网页的框架结构如下： <html> <body> <div id="container"> <div id="contents"> <table> <tbody> <tr> <td class="author">####I want whatever is located here ###</td> </tr> </tbody> </table>

浏览 0提问于2009-09-08得票数 8

回答已采纳

1回答

用于下载某些WebScraping文件的.csv

、

我有个问题。如标题所示，我需要从网站下载某些.csv文件，而且我在做这件事时遇到了麻烦。我在编程方面非常新，尤其是在这个主题(网络抓取)方面。 from bs4 import BeautifulSoup as BS import requests DOMAIN = 'https://datos.gob.ar' URL = 'https://datos.gob.ar/dataset/cultura-mapa-cultural-espacios-culturales/' FILETYPE = ".csv" def get_soup(url):

浏览 1提问于2021-12-25得票数 0

回答已采纳

1回答

如何使用web爬虫获取开放url和获取其内容

、

我正在尝试使用网络爬虫从体育、主页、世界、商业和技术中获取新闻内容，我有这样的代码，它可以抓取页面的标题和url，如何获取页面的url并打开它并获取它的正文内容。 #python code import requests from bs4 import BeautifulSoup url = "https://www.aaa.com" page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') print(soup.prettify()) headlines = sou

浏览 2提问于2021-11-30得票数 0

回答已采纳

3回答

BeautifulSoup中的网络抓取返回一个空列表

、、

我试图通过网络从篮球参考资料中抓取一个表格，结果返回一个空列表。我希望有人能帮我调试或解释原因。该页面有许多表，但它特别是“杂项统计”部分。提前感谢！ from bs4 import BeautifulSoup import requests import time import pandas as pd import matplotlib as plt import numpy as np url = 'https://www.basketball-reference.com/leagues/NBA_2020.html#all_misc_stats' res = requ

浏览 35提问于2020-07-10得票数 0

2回答

为什么我的html解析器不能下载整个html文档？

、、、

我正在使用Beautiful Soup来抓取以下页面：我想要的是股票价值下面的名称+缩写。但是，当我运行脚本时，soup.find()似乎无法工作，因为没有下载整个html文件。 main_url = "https://www.nyse.com/quote/XNYS:AAN" import requests result = requests.get(main_url) from bs4 import BeautifulSoup soup = BeautifulSoup(result.text, 'html.parser') print(soup.fin

浏览 0提问于2019-06-13得票数 3

2回答

在PGA网站上从JavaScript表中抓取Python

、、

我刚刚开始学习Python，并且一直在与BeautifulSoup一起工作，从网络上抓取体育数据。我遇到了一个问题，在PGA网站上，它是由javascript生成的，我希望有人能在我工作的特定网站的上下文中引导我完成这个过程。下面是一个示例链接"“--表是所有的播放器统计表。谢谢!

浏览 8提问于2017-03-13得票数 0

回答已采纳

2回答

如何提取div标签中的强元素

、、

我对网络抓取是个新手。我正在使用Python来抓取数据。有没有人可以帮助我如何从以下位置提取数据： <div class="dept"><strong>LENGTH:</strong> 15 credits</div> 我的输出应该是长度：15 credits 下面是我的代码： from urllib.request import urlopen from bs4 import BeautifulSoup length=bsObj.findAll("strong") for leng in length:

浏览 0提问于2016-08-22得票数 4

1回答

具有动态href的BeautifulSoup

、、

尝试python3.4漂亮汤从网页抓取一个压缩文件，这样我就可以解压缩并下载到文件夹中。我可以让漂亮的汤打印()页面上的所有href，但我想要一个特定的href，以结尾，"=Hospital_Revised_Flatfiles.zip“。这有可能吗？到目前为止，我只有网址上的href列表。文件的全部内容是，但是中间的疯狂内容在更新文件时会发生变化，并且无法知道它会更改到什么。请让我知道，如果有什么是我遗漏的问题，可能会有帮助。我使用Python3.4和BeautifulSoup4 (bs4) from bs4 import BeautifulSoup import request

浏览 3提问于2016-03-22得票数 0

回答已采纳

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

1回答

如何在chrome (或其他浏览器)上自动从缓存中提取图像

、、

我一直在想，在你浏览互联网时，是否有任何方法可以自动下载图片(主要是.png)。为了澄清，我想抓取图片，在他们下载到我的缓存文件夹。从像这里这样的资源文件夹中，我知道我可以用网络工具一个一个地做这件事，但是我想用很多图像来做。

浏览 0提问于2019-01-03得票数 1

1回答

使用python的beautifulSoup库从IMDB网站抓取影评

、、、

我想从IMDB网站上抓取某部电影的所有评论。我已经使用了BeautifulSoup包的'Html-parser‘来做同样的事情。考虑这个链接，我想要抓取这部电影的所有评论(即Total = 69)，但由于在页面上可以看到25条评论，Soup将只提取25条评论，而不是这里的总评论。我的代码： url = "https://www.imdb.com/title/tt6654210/reviews?ref_=tt_ov_rt" response = requests.get(url) soup = BeautifulSoup(response.text, 'ht

浏览 5提问于2021-06-11得票数 0

3回答

Python错误：'NoneType‘对象没有使用Beautiful Soup的属性'find_all’

、、

我在运行一些网络抓取代码时遇到了问题。要从一系列链接中抓取信息，如下所示： http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument 我正在尝试从表中抓取某些元素，但收到以下错误： Python Error: 'NoneType' object has no attribute 'find_all' 我知道这与它实际上没有找到表有关，因

浏览 44提问于2020-04-18得票数 1

回答已采纳