Python请求web抓取如何检测不存在的返回页面？_如何检测网站上的变化？python web抓取_Web抓取:返回单个脚本而不是完整的源代码(python请求) - 腾讯云开发者社区

python、web-scraping、python-requests

如果可以找到工作，比如“程序员”，那么它会给我一个代码200，我转到的页面在脚本中是相同的。但是，我还是得到了一个200的代码。手动尝试后，他们的站点会将我重定向到一个类似"https://www.ziprecruiter.com/Salaries/What-Is-the-Average-Youtuber-Salary-by-Stateind=null“的页面 null_url: str = "https:&#

浏览 18提问于2021-02-03得票数 0

回答已采纳

2回答

Python Web抓取HTTP 400

python、http、web-scraping、scrapy

我正在使用Python (使用Scrapy框架)进行web抓取。抓取过程成功运行，直到过程进入大约一个小时，然后每个请求返回一个HTTP400错误代码。这可能只是一个基于IP的速率限制器或刮擦检测工具吗？对于如何进一步调查根本原因，有什么建议吗？

浏览 1提问于2015-08-26得票数 0

1回答

如何在python中读取<pre>中的文本？

python、html、web-scraping、beautifulsoup、python-requests

__a=1将填充有关帐户的信息，但如果名称不存在，页面将只在pre中包含{}，而不会有其他信息。我使用Requests和BeautifulSoup来抓取页面。__a=1') print(r.text) 显示文本是可行的，但即使我输入了一个不存在的用户名或一堆乱七八糟的字母，它也总是返回一堆我在实际如何让它只返回</em

浏览 36提问于2020-10-02得票数 1

3回答

用python刮网站

python、web-scraping、beautifulsoup、scrapy、libraries

我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。

浏览 1提问于2020-06-09得票数 1

回答已采纳

1回答

如何为每个不存在的子域创建404页？

subdomain、404

我有一个站点http://example.com，您如何为不存在的子域创建404页？子域的默认行为是它们不解析。相反，我想为他们创建一个用户友好的“找不到”页面。

浏览 0提问于2015-03-15得票数 1

3回答

如何做一个过滤器来检测用户是否请求了未找到的页面？

java、servlets、jakarta-ee、servlet-filters

我想在我的应用程序中创建一个过滤器，这样在每次请求之前，它都会检测所请求的页面是否存在。如果它不存在，它会将用户转到一个错误页面。如何检测该页面是否存在？我需要一个带有过滤器的解决方案，而不是使用web.xml标记方法。

浏览 0提问于2010-12-01得票数 5

回答已采纳

1回答

如何检测chrome扩展是否存在

python、chrome-web-store

我有一个chrome扩展urls列表，我必须从这些urls列表中列出那些不存在的扩展(404)。目前我正在抓取页面并检测到它，但我想知道是否有其他方法可以做到这一点？到目前为止，我已经编写了一段python代码来抓取链接并检测404。我的代码：- import requests html= requests.get("<<chrome extension link comes here>>"

浏览 18提问于2019-01-30得票数 0

回答已采纳

3回答

如何检测到这两个URL驱动到同一个站点？

python、ruby-on-rails、ruby

如何检测这两个URL驱动到相同的站点(所以它们是相同的URL)而不必使用web抓取来读取内容？编辑：谢谢!

浏览 3提问于2014-06-20得票数 1

回答已采纳

1回答

我不能用bs4提取帖子的instagram标签

python-3.x、web-scraping、beautifulsoup、python-requests、instagram

我想使用BeautifoulSoup4从特定的帖子(给定url)中提取hashtag。首先，我使用请求获取页面，并尝试使用find_all()获取每个哈希标记，但似乎存在一个隐藏的问题。utm_source=ig_web_copy_link' soup = bs(r.content,'html.parser') items = soup.find_all('a',attrs={'class'

浏览 1提问于2020-06-25得票数 0

回答已采纳

5回答

如何从其他网站获取数据？

python、database、parsing、web-scraping

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

2回答

Mac应用程序的Instagram API

macos、oauth-2.0、instagram、instagram-api

我已经浏览了Instagram身份验证文档，我可以看到，除了带用户访问Instagram指定的URL之外，没有其他直接的身份验证方法。看，我们应该带用户到一个特定的URL。Instagram使用OAuth 2.0。但问题是，有一个名为Flume的Mac，它不

浏览 8提问于2016-06-05得票数 2

回答已采纳

1回答

将数据从Jinja传递回烧瓶

javascript、python、flask、jinja2

我如何将信息从金刚模板页传回瓶？传递所选项目作为函数的参数以生成该项自己的页面的最佳实践是什么？

浏览 1提问于2014-06-24得票数 1

回答已采纳

5回答

如何使用Python将数据输入到网页以抓取结果输出？

python、scrape

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

6回答

并发缓存共享模式

c#、multithreading、design-patterns、concurrency、c#-4.0

好的，我不太确定如何最好地命名这个问题:)但是假设这个场景，您要出去获取一些网页(带有各种urls)并在本地缓存它。即使使用多个线程，缓存部分也很容易解决。但是，假设一个线程开始获取一个url，而几毫秒后，另一个线程想要获得相同的url。是否有好的模式使秒线程的方法等待第一个线程获取页面，将其插入缓存并返回它，这样您就不必执行多个请求了。我有一个松散的想法，那就是有一个字典，当你开始抓取一个页面并锁

浏览 6提问于2010-12-08得票数 1

回答已采纳

1回答

页面未完全处理

python、scrapy

我正在尝试从雅虎财经网站抓取新闻文章，为此，我想使用他们的网站地图页面我仍然通过在浏览器中停用javascript获得整个页面，并且我使用scrapy 1.6 谢谢。

浏览 13提问于2019-11-04得票数 0

4回答

检查是否存在请求不工作的网站

python、web-scraping

所以，我在几天前学习了Web抓取的工作原理，今天我在这里闲逛。我想知道如何测试页面是否存在/不存在。所以，我查了一下，找到了Python check if website exists。requestsif request.status_code == 200: print('Websi

浏览 62提问于2018-02-07得票数 2

回答已采纳

2回答

使用Python* & lxml抓取时如何选择“加载更多的结果”按钮*

python、web-scraping、lxml

在50条条目之后，它提供了一个加载更多的结果按钮。我需要自动选择它。我该怎么做呢。为了抓取，我使用Python，Lxml。

浏览 0提问于2014-06-19得票数 3

回答已采纳

2回答

尝试将数据从网站加载到json文件中。

python、json、python-requests

m=1" print(r.text)print(r.json)继续：：import json“，s，err.value)到None json.decoder.JSONDecodeError: err.value:第1列(char 0)”程序完成“★★ 我只想在json文件中加载数据，然后在我<em

浏览 2提问于2020-05-10得票数 0

2回答

避免用于爬行的Google学者块

python、web-crawler

我使用了以下python脚本来从python中抓取google学者： print lines 但我反复这样做，所以我被这个网站屏蔽了--谷歌学者说：当谷歌自动检测到来自您的计算机网络的<

浏览 5提问于2013-01-25得票数 0

回答已采纳

3回答

Selenium缓慢向下滚动

python、selenium、web、screen-scraping

我正在尝试使用Python在javascript渲染的网页上进行动态web抓取。 1)然而，只有当我缓慢地向下滚动页面时，元素才会加载。我试过了： driver.execute_script("window.scrollTo(0, Y)") (这不起作用，因为它只滚动到页面上的某个点，而忽略了其他结果) 和 driver.execute_script("window.scrollTo(0, document.body.scrollHeig

浏览 48提问于2019-05-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云