使用Python请求抓取某些url时出错_使用selenium更改页面抓取python时出错_使用Python抓取URL链接 - 腾讯云开发者社区

python、web-crawler、urllib

我正在从网络上抓取一些数据，而且由于我应该获得的数据是巨大的，我已经获得了超过500个同时请求(通过urllib.request.urlopen(url)通过multiprocessing池进行的)。这里的问题是引发了以下错误： urllib.error.URLError: urlopen错误名称解析中的临时失败经过一些研究后，我发现这个问题是由这样一个事实造成的:当有太多的请求时，不能关闭连接。但还没有找到解决这个问题的方法。应该将同时连接限制在某个安全范围内，还是更改urllib请求配置？发展环境： Ubuntu 16.04 Python 3.6

浏览 0提问于2018-04-08得票数 3

2回答

如何解析Scrapy请求中的502响应码？

scrapy、request、response、crawlera

我用Scrapy创建了一个从Yelp抓取数据的爬虫。所有请求都通过Crawlera代理。Spider获取要抓取的URL，发送请求，然后抓取数据。直到有一天，我开始收到502无响应。执行以下代码行后，将显示502无响应： r = self.req_session.get(url, proxies=self.proxies, verify='../secret/crawlera-ca.crt').text 回溯： 2020-11-04 14:27:55 [urllib3.connectionpool] DEBUG: https://www.yelp.com:443 "GE

浏览 29提问于2020-11-04得票数 0

1回答

为什么我得到异常"403存储库访问被阻止‘使用pygithub？“

python、python-3.x、github、github-api

我试图通过pygithub抓取github用户最喜欢的编程语言，但奇怪的是，每次我想抓取用户时--ELLIOTTCABLE的存储库--我得到了以下例外： Traceback (most recent call last): File "/home/gf/KuaiPan/code/Python/Data Mining/test.py", line 14, in <module> repo = user.get_repo(j) File "/usr/lib/python3.4/site-packages/github/NamedUser.py", lin

浏览 1提问于2014-08-20得票数 0

回答已采纳

1回答

使用Python使用Javascript实现Web抓取页面

javascript、python、web、screen-scraping

我正在尝试使用Python抓取一个urls列表的网页。我可以使用Python和漂亮的汤来抓取第一个页面，但是如果url列表很长，它会使用下面的JavaScript继续到第二个页面。 href="javascript:__doPostBack('WQResultGridView'，‘第$2页’) 我不知道怎么才能看到第二页。

浏览 0提问于2013-12-05得票数 0

2回答

使用Addthis在Facebook上共享URL

facebook、addthis

我们有一个新闻网站，使用AddThis插件在Facebook上分享新闻，有时当我们尝试在Facebook上分享新闻时，它不会检测到页面信息(标题，描述，图片)，当我们把同样的网址放在Facebook调试器上时，一切都运行正常，页面信息被检测到，当我们返回网站并使用相同的网址时，我们可以正常分享它。使用asp.net 4.0 + SQL server 2008 + iis 6创建的网站和防火墙后的网站谢谢 === (更新).. 在尝试Facebook调试器之后，我得到了这个错误：分析URL时出错:分析输入URL时出错，未抓取任何数据。在尝试2天后，我可以在不使用调试器的情况下分享链接。然

浏览 0提问于2013-09-01得票数 0

4回答

为什么我不能用Python加载一个Facebook应用程序页面？

python、facebook、http

我正在设计一个链接抓取程序，它可以抓取给定URL的基本链接预览字段，如页面标题、描述和图像等。到目前为止，我已经有了一个非常好的工作版本，使用了Python库和。大多数url看起来都很完美，但是当我尝试Facebook应用程序的url时，我会得到一个与直接从浏览器访问它不同的HTML响应。例如，如果我在浏览器和查看源中导航到应用程序，我将看到一个特定于该应用程序的标题字段。但是，Python中的HTML返回泛型Facebook.com标题字段。我试图了解Facebook应用程序页面是如何向我的浏览器提供某种HTML响应的，以及如何将另一个HTML响应传递给我的Python服务器。 Face

浏览 2提问于2012-03-15得票数 0

回答已采纳

1回答

网络抓取facebook“在线好友列表”

facebook、web、web-scraping、screen-scraping

我刚开始使用web抓取，到目前为止，我所做的只是一些基本的python抓取。我真正想要的是让我所有的在线朋友在facebook上刮擦，看看如何刮一些动态变化的东西。所以请告诉我是否可能，从哪里开始等等。谢谢！

浏览 1提问于2013-08-02得票数 0

回答已采纳

2回答

Python Web抓取HTTP 400

python、http、web-scraping、scrapy

我正在使用Python (使用Scrapy框架)进行web抓取。抓取过程成功运行，直到过程进入大约一个小时，然后每个请求返回一个HTTP400错误代码。这可能只是一个基于IP的速率限制器或刮擦检测工具吗？对于如何进一步调查根本原因，有什么建议吗？

浏览 1提问于2015-08-26得票数 0

1回答

错误404要抓取的Python url上的Scrapy在浏览器中工作(有时)，但在python中不起作用

python、scrapy、http-status-code-404

我正在做一个项目，其中需要抓取以下url的数据： url的最后一部分表示对象的ID。在浏览器中打开链接确实可以，但有时会返回404错误。在python中使用scrapy shell时也是如此，有时我可以抓取url，有时则不能。当我设法打开url(没有出现404错误)时，我转到了inspect > network。但我没有足够的经验来理解这些信息。有人知道解决方法吗？或此主题的其他信息？您可以尝试的额外urls： https://www.funda.nl/objectinsights/getdata/5819260/ https://www.funda.nl/objectinsight

浏览 2提问于2021-01-17得票数 0

2回答

限制并发操作nodejs

node.js、event-loop、requestjs

这是一个用节点js.编写的web抓取代码。当队列有足够的urls时，此代码是否总是保留5个并发请求？为什么控制台显示的不是？ var request = require("request"); var cheerio = require("cheerio"); var fs = require('fs'); var concurrent_requests = 0; var queue = []; var baseUrl = "https://angularjs.org/"; function makeApiCall(url

浏览 3提问于2017-10-07得票数 0

2回答

从.aspx页面中查找url的“查询字符串参数”以进行刮除。

asp.net、python-3.x、web-scraping、beautifulsoup、python-requests

我正在使用beautifulsoup和requests python库进行抓取。通常，目标页面的URL可以在浏览器上看到。但有时在浏览器中看不到它，所以开发者可以很容易地从Chrome中学习到Tools>Network选项卡Query String Parameters。但是我找不到页面的“查询字符串参数”。有没有人帮我找到这个页面中“搜索任何值”的参数？

浏览 4提问于2019-10-31得票数 0

回答已采纳

2回答

没有得到任何HTML响应代码

python、python-3.x、web-scraping

我对整个抓取的事情都很陌生，并且试图通过python从网站上抓取一些信息，但是当检查HTML响应(即200)时，我不会在终端上得到任何结果。下面是我的密码。感谢所有的帮助！编辑:我已经修复了我的菜鸟错误在打印部分下面的xD谢谢各位更正！ import requests url = "https://www.sephora.ae/en/shop/makeup-c302/" page = requests.get(url) print(page.status_code)

浏览 14提问于2022-06-10得票数 1

回答已采纳

1回答

Web通过python抓取问题，不能读取html文件吗？

python-3.x、web-scraping、beautifulsoup

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取这是我的密码 from bs4 import BeautifulSoup import requests url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010' print(url_episode) getdetail_episode = requests.get(url_episode) soup = BeautifulSoup(getde

浏览 1提问于2020-04-06得票数 0

2回答

基于日期抓取表数据

python、web-scraping、beautifulsoup、screen-scraping

我正在尝试抓取kurs事务的表从2015-2020年，但问题是默认日期和我选择的日期之间的链接仍然是相同的。那么我如何告诉python从2015-2020(20-11-15-20-11-20)抓取数据呢？我对python和python3的使用非常陌生。 import requests from bs4 import BeautifulSoup import pandas as pd headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Ch

浏览 0提问于2020-11-24得票数 0

1回答

Python3 beautifulsoup4多个url请求和保存数据

python-3.x、beautifulsoup

我是python的新手，我在使用Beautifulsoup从文本列表中抓取多个url，甚至编码到程序中时遇到了问题。下面是我的代码示例。 import requests from bs4 import BeautifulSoup import re url = 'https://0.0.0.0/directory/' r = requests.get(url) soup = BeautifulSoup(r.content, 'html5lib') with open("1.txt", "w") as f:

浏览 22提问于2020-08-26得票数 0

回答已采纳

1回答

我在这个网站上找不到Xpath或者语法错误

javascript、python、xpath、google-sheets-formula、screen-scraping

我正在尝试从这个url 中刮取数据，但是我没有找到我想要导出的文本的Xpath，这是生产者提供的。首先，我尝试Google中的importxml函数： =IMPORTXML(A1;"/html/body/flt-ruler-host/div[23]/p") 它给了我N/A错误“导入的内容是空的” 因此，我尝试刮这个网站的加载项和Parsehub，它每次给我一个.csv文件，在那里我找不到我想要导出的数据。另外，我也找不到我想要抓取的数据的正确Xpath，当我使用检查工具时，数据不在<body>部分。但是，我在我的importXML函数中使用的Xpath是我在&

浏览 7提问于2020-05-18得票数 0

回答已采纳

1回答

如何从承载HTML之外的表数据的网站中刮表？

python、html、pandas、beautifulsoup、python-requests

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine 但是这个url的HTML不包含表数据，而是从外部数据库中提取数据。有人能告诉我用这种HTML设置使用python脚本来抓取表数据的正确方向吗？我试着用我以前刮过的方法做一次盲刮。 from bs4 import BeautifulSoup import requests import mysql.connector import pandas as pd

浏览 3提问于2022-04-02得票数 -1

回答已采纳

3回答

使用Python中的导出按钮下载/导出站点搜索结果

python

因此，我试图使用Python从以下网站抓取数据(使用示例查询)：然而，我没有抓取搜索结果，而是意识到，如果我以编程的方式单击Save results as " CSV“链接，并处理CSV数据，这样就更容易了，因为它可以使我不必浏览搜索结果的所有页面。我检查了CSV链接元素，发现它被称为"exportSearch('csv')函数“。通过在控制台中键入函数的名称，我发现CSV链接只是将window.location.href设置为:window.location.href 如果我在同一个浏览器中遵循该链接，则保存提示符将用csv打开以保存。当我想要

浏览 2提问于2020-02-19得票数 1

6回答

使用jquery和ajax进行网站抓取

javascript、jquery、ajax、screen-scraping

我希望能够操纵给定url的html。类似于html抓取。我知道这可以使用curl或一些抓取library.But来完成。我想知道是否可以使用jquery通过ajax向url发出get请求并检索url的html，然后在返回的html上运行jquery代码？谢谢

浏览 0提问于2009-12-21得票数 15

1回答

在按下前端的按钮后，我如何在web服务器(nodeJS)中运行python脚本？

javascript、python、html、node.js、web-scraping

嗯，直截了当地说，我有一个python脚本，在给定的URL之后，它从某个网站抓取数据并创建一个excel表，而且，我还有一个正在运行的web服务器，我为用户制作了一个服务器。如何在我的后端上运行那个python脚本，在前面输入要被刮掉的的网站URL？谢谢!

浏览 1提问于2021-03-08得票数 1

2回答

请求响应中没有数据

python、beautifulsoup、python-requests

我刚接触python、数据抓取和自动化。我正在尝试抓取URL中给出的网站。当我在浏览器中打开URL链接时，所有的数据都会显示出来，但是requests.get()方法的响应并没有给出这些数据。如果有人能告诉我出了什么问题，那将是非常有帮助的。 import requests import time from bs4 import BeautifulSoup URL = "https://fees.uspto.gov/MaintenanceFees/fees/details?applicationNumber=12814074&patentNumber=7871455"

浏览 1提问于2016-07-04得票数 1

2回答

python

我试图使用Python和BeautifulSoup4来抓取一个网站，下面是我的代码： import requests import bs4 result = requests.get("https://wolt.com/en/svk/bratislava/restaurant/la-donuteria-bratislava") soup = bs4.BeautifulSoup(result.content,"html5lib") for i in soup.find_all("div", {"class": re.compile(

浏览 1提问于2022-02-15得票数 0

1回答

.requests()文件类型问题-无法从内容传递网络获得PDF

python、pdf、web-scraping、request、cdn

发现，我在获取PDF的内容时遇到了困难，因为它们是由一个名为的内容传递网络(CDN)托管的。下面的代码在嵌入到网页中的PDF链接上是成功的。 url = 'https://embed.widencdn.net/pdf/plus/widnr/kdlgedcepu/miss_surv_120117.pdf?u=7vkdxn' filepath = r"C:\Users\pathgoeshere\{}.pdf".format('test') if os.path.exists(filepath): pass else: r

浏览 2提问于2020-08-02得票数 0

回答已采纳

1回答

爬行数据，但url不会更改

python-3.x、web-scraping、scrapy、web-crawler

python-3.x、urllib

我有一个urls列表，我使用python3中的urllib，使用以下代码从网站抓取图像。 i=0 all_image_links=[] r=requests.get(urllink) data=r.text soup=BeautifulSoup(data,"lxml") name=soup.find('title') name=name.text for link in soup.find_all('img'): image_link=link.get('src') final_link=urllink+image

浏览 0提问于2018-06-06得票数 0

1回答

公司可以限制从他们的网站上抓取的内容吗？

python-3.x、web-scraping、python-requests

我正在学习使用Python3的Requests和Beautiful Soup进行web抓取。我试着从不同的网站上提取信息，没有任何问题。但是，我访问了packtpub.com站点()，当使用请求发送请求以将整个站点的内容保存在一个变量中时，我得到了以下消息： import requests url = 'https://www.packtpub.com/' req = requests.get(url) req.raise_for_status() reqText = req.text print(reqText) "requests.exceptions.HTT

浏览 0提问于2018-05-28得票数 2

1回答

如何在Python中对带有图片的表格进行and抓取并导出到Excel中？

python、web-scraping、beautifulsoup

我正试着从URL上盗取一张桌子我可以使用Scrapestorm工具抓取表格数据。我是python的新手，不能从这个URL获取数据。 from bs4 import BeautifulSoup page = requests.get('https://pantheon.world/explore/rankings?show=people&years=-3501,2020') soup = BeautifulSoup(page.text) Excel中所需的输出： enter image description here 从网页上抓取表格数据和图片是可能的吗？

浏览 61提问于2020-12-23得票数 1

回答已采纳

1回答

Session.get没有打开正确的页面吗？

python、web-scraping、python-requests

我试图在python脚本中打开一个链接。当我复制到我的浏览器时，它显示了正确的页面。但是，当我使用python打开链接时，它只会转到我尝试使用带有几个不同标题的会话，也尝试使用requests.get。我只是使用了错误的标题吗？我正在查看源代码，当您单击按钮从第一页转到第二页时，除了一个href之外还有一个ajax url，所以我认为这可能是我出错的地方？代码： group_link = 'https://www.amazon.com/Best-Sellers-Automotive-Transmission-Fluid-Additives/zgbs/automotive/15

浏览 1提问于2016-06-29得票数 1

回答已采纳

3回答

在python中计算网页大小

python

如何使用Python计算网页(url)的大小？我尝试了urllib2并抓取了content-length报头，但它不存在。 import urllib2 url = 'http://www.google.com/' r = urllib2.urlopen(url) #Not sure what to do from here

浏览 3提问于2009-10-23得票数 2

回答已采纳

2回答

抓取需要使用cookie的网站

python、cookies、xpath、web-scraping、scrapy

我正在制作抓取网站的scrapy，但这个网站使用的是cookies，我不知道如何使用cookies来制作抓取网站数据的指令 class DmozSpider(Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/" ] def parse(self, response):

浏览 2提问于2014-04-24得票数 0

1回答

如何在Scrapy中模拟XHR请求以动态加载网页？

python、ajax、scrapy、web-crawler、scrapy-spider

我正在尝试抓取olx.in站点http://www.olx.in/newdelhi/bmw/，我已经将这个URL设置为start_url。现在要转到下一页，因为它不是普通的HTML，但是它是动态的，所以在network中，我看到next按钮用POST方法创建了一个XHR请求。现在我必须用请求方法来模拟它(我猜.)但我不知道它的参数是什么。我对python和web抓取非常抱歉，如果它太笼统，但任何帮助都将不胜感激。

浏览 4提问于2016-01-12得票数 1

回答已采纳

1回答

使用python从下拉菜单中抓取所有动态生成的数据的最佳方法

python、selenium、web-scraping、beautifulsoup

我正在创建webscraper，它将从这个网站中动态地生成玩家数据。我想要创建一个循环，它将从下拉菜单中为播放器生成数据，刮取数据，然后循环遍历下拉菜单中的所有播放器列表。我很好奇是否使用selenium与站点交互是最好的方法。但我也注意到，每个播放器的URL都遵循特定的模式，所以我考虑了抓取初始页面来收集我需要的所有数据，然后使用这些数据构造URL列表，然后循环遍历URL列表并将它们作为静态页面处理。是否有为这种特定类型的web抓取构建的python工具？

浏览 6提问于2020-03-18得票数 1

回答已采纳

1回答

用python抓取javascript驱动的“下一步”按钮的麻烦

python、selenium、web-scraping

我正在尝试抓取一个网站，以学习python和网络抓取。特别是，我试图在这个页面上抓取足球数据：我的主要问题是如何抓取主数据表的所有页面，而不仅仅是第一个页面。我正在尝试使用selenium并分析当我点击“下一步”按钮时我的浏览器发送的请求，但我遇到了一些问题。感谢您的关注。

浏览 2提问于2018-08-30得票数 1

1回答

获取普通爬网第一次抓取URL的日期？

common-crawl

在Common Crawl中，相同的URL可以被多次获取。例如，Reddit博客帖子可以在创建时抓取，然后在添加后续评论时抓取。有没有办法找出给定的URL何时被Common Crawl首次抓取？

浏览 5提问于2021-03-05得票数 0

回答已采纳

3回答

如何从IG帖子中获取图片或视频url？

image、video、instagram

我需要从instagram后链接抓取图像和视频(例如：)。当使用python的正常请求时，我在html响应中没有接收到图像url。请帮我拿一下。

浏览 0提问于2017-09-27得票数 4

1回答

Python -抓取单击后加载的数据

python、web-scraping、beautifulsoup

我对Python有点陌生，对于我的一个研究项目，我需要一个网络刮刀来抓取网络内容来创建一个数据集。由于大多数帖子都建议使用漂亮的汤包，所以我试着基于Python构建了一个web抓取器。我需要抓取的数据是在单击网页上的按钮后加载的。下面是一个例子：当点击"12条评论“时，弹出窗口加载并显示评论。我需要删掉这些评论。我尝试了许多方法，但到目前为止似乎都不起作用。如果有什么需要做的，有人能检查一下我的代码吗?或者给我提供另一种方法？ import bs4 import requests session = requests.Session() url = "ht

浏览 1提问于2015-09-27得票数 0

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

python、web-scraping、scrapy

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时是“正常”时间吗？或者，有没有更适合我的包，当页面被抓取时，没有“关注”链接？

浏览 0提问于2020-08-25得票数 0

1回答

如何报废网站上的所有页面(第1页直到无穷大)

python、xpath、web-scraping、css-selectors、scrapy

伙计们，我想从上抓取一切都好，我抓取它的成功然后我在想，如果我想抓取所有的页面(第一页直到无限取决于数据库文章)会怎么样？我刚开始使用python和scrapy，在此之前我使用的是java和c#...their两种语言它与python非常不同，但对我来说还可以。这是我的消息来源 import datetime import urlparse import socket import scrapy from scrapy.loader.processors import MapCompose, Join from scrapy.loader import ItemLoader from s

浏览 1提问于2016-07-25得票数 0

回答已采纳

3回答

无法从网站获取数据，因为URL在获取数据时不会更改，因此数据表为空

python、web-scraping、beautifulsoup、python-requests

我刚刚开始使用python进行网络抓取。我使用了两个库来抓取:请求和漂亮的汤。我打开给定的URL，并在该页面上传递所需数据的日期间隔。当我按submit时，URL不会改变，但是数据在页面上。然后我就可以访问那个页面了。我就是这样访问这个网站的： r = requests.get("https://....... ") c = r.content soup = BeautifulSoup(c, "html.parser") 如果我想获取数据，我使用以下代码从存储数据的网站获取数据： all = soup.find_all("table", {

浏览 3提问于2017-02-20得票数 1

回答已采纳

2回答

使用Python进行Web抓取有时会产生HTTP 429

python、html、python-3.x、beautifulsoup

我正试图为视频抓取编辑页面。我使用python和漂亮的汤来执行job.The代码，有时返回结果，有时在重新运行代码时不返回，我不知道哪里出错了。有人能帮忙吗？我是蟒蛇的新手，所以请容忍我。 import requests from bs4 import BeautifulSoup page = requests.get('https://www.reddit.com/r/FortNiteBR/comments/afjbbp/just_trying_to_revive_my_buddy_and_then_he_got/') soup = BeautifulSoup(page

浏览 1提问于2019-01-14得票数 1

回答已采纳