腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Python
请求
web
抓取
如何
检测
不存在
的
返回
页面
?
python
、
web-scraping
、
python-requests
如果可以找到工作,比如“程序员”,那么它会给我一个代码200,我转到
的
页面
在脚本中是相同
的
。但是,我还是得到了一个200
的
代码。手动尝试后,他们
的
站点会将我重定向到一个类似"https://www.ziprecruiter.com/Salaries/What-Is-the-Average-Youtuber-Salary-by-Stateind=null“
的
页面
null_url: str = "https:
浏览 18
提问于2021-02-03
得票数 0
回答已采纳
2
回答
Python
Web
抓取
HTTP 400
python
、
http
、
web-scraping
、
scrapy
我正在使用
Python
(使用Scrapy框架)进行
web
抓取
。
抓取
过程成功运行,直到过程进入大约一个小时,然后每个
请求
返回
一个HTTP400错误代码。这可能只是一个基于IP
的
速率限制器或刮擦
检测
工具吗?对于
如何
进一步调查根本原因,有什么建议吗?
浏览 1
提问于2015-08-26
得票数 0
1
回答
如何
在
python
中读取<pre>中
的
文本?
python
、
html
、
web-scraping
、
beautifulsoup
、
python-requests
__a=1将填充有关帐户
的
信息,但如果名称
不存在
,
页面
将只在pre中包含{},而不会有其他信息。 我使用Requests和BeautifulSoup来
抓取
页面
。__a=1') print(r.text) 显示文本是可行
的
,但即使我输入了一个
不存在
的
用户名或一堆乱七八糟
的
字母,它也总是
返回
一堆我在实际
如何
让它只
返回</em
浏览 36
提问于2020-10-02
得票数 1
3
回答
用
python
刮网站
python
、
web-scraping
、
beautifulsoup
、
scrapy
、
libraries
我已经看过多个教程和博客,最常见
的
库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )
的
情况下
抓取
一个网站,那么就可以使用beautifulsoup。
浏览 1
提问于2020-06-09
得票数 1
回答已采纳
1
回答
如何
为每个
不存在
的
子域创建404页?
subdomain
、
404
我有一个站点http://example.com,您
如何
为
不存在
的
子域创建404页?子域
的
默认行为是它们不解析。相反,我想为他们创建一个用户友好
的
“找不到”
页面
。
浏览 0
提问于2015-03-15
得票数 1
3
回答
如何
做一个过滤器来
检测
用户是否
请求
了未找到
的
页面
?
java
、
servlets
、
jakarta-ee
、
servlet-filters
我想在我
的
应用程序中创建一个过滤器,这样在每次
请求
之前,它都会
检测
所
请求
的
页面
是否存在。如果它
不存在
,它会将用户转到一个错误
页面
。
如何
检测
该
页面
是否存在?我需要一个带有过滤器
的
解决方案,而不是使用
web
.xml标记方法。
浏览 0
提问于2010-12-01
得票数 5
回答已采纳
1
回答
如何
检测
chrome扩展是否存在
python
、
chrome-web-store
我有一个chrome扩展urls列表,我必须从这些urls列表中列出那些
不存在
的
扩展(404)。目前我正在
抓取
页面
并
检测
到它,但我想知道是否有其他方法可以做到这一点?到目前为止,我已经编写了一段
python
代码来
抓取
链接并
检测
404。我
的
代码:- import requests html= requests.get("<<chrome extension link comes here>>"
浏览 18
提问于2019-01-30
得票数 0
回答已采纳
3
回答
如何
检测
到这两个URL驱动到同一个站点?
python
、
ruby-on-rails
、
ruby
如何
检测
这两个URL驱动到相同
的
站点(所以它们是相同
的
URL)而不必使用
web
抓取
来读取内容? 编辑:谢谢!
浏览 3
提问于2014-06-20
得票数 1
回答已采纳
1
回答
我不能用bs4提取帖子
的
instagram标签
python-3.x
、
web-scraping
、
beautifulsoup
、
python-requests
、
instagram
我想使用BeautifoulSoup4从特定
的
帖子(给定url)中提取hashtag。首先,我使用
请求
获取
页面
,并尝试使用find_all()获取每个哈希标记,但似乎存在一个隐藏
的
问题。utm_source=ig_
web
_copy_link' soup = bs(r.content,'html.parser') items = soup.find_all('a',attrs={'class'
浏览 1
提问于2020-06-25
得票数 0
回答已采纳
5
回答
如何
从其他网站获取数据?
python
、
database
、
parsing
、
web-scraping
我想创建一个网站,从其他网站提取信息,并将它们打印到我
的
网站上,我正在进行研究,所以我想听取一些意见,这个项目的最佳解决方案是什么?我听说
Python
使用解析器可以做到这一点,我只是想知道我应该走哪条路,应该使用哪种语言?
浏览 1
提问于2013-06-14
得票数 4
2
回答
Mac应用程序
的
Instagram API
macos
、
oauth-2.0
、
instagram
、
instagram-api
我已经浏览了Instagram身份验证文档,我可以看到,除了带用户访问Instagram指定
的
URL之外,没有其他直接
的
身份验证方法。 看,我们应该带用户到一个特定
的
URL。Instagram使用OAuth 2.0。但问题是,有一个名为Flume
的
Mac,它不
浏览 8
提问于2016-06-05
得票数 2
回答已采纳
1
回答
将数据从Jinja传递回烧瓶
javascript
、
python
、
flask
、
jinja2
我
如何
将信息从金刚模板页传回瓶?传递所选项目作为函数
的
参数以生成该项自己
的
页面
的最佳实践是什么?
浏览 1
提问于2014-06-24
得票数 1
回答已采纳
5
回答
如何
使用
Python
将数据输入到网页以
抓取
结果输出?
python
、
scrape
我熟悉从网页
抓取
数据
的
BeautifulSoup和urllib2。但是,如果在
返回
我想要
抓取
的
结果之前需要在
页面
中输入一个参数,该怎么办?我正在尝试使用这个网站获取两个地址之间
的
地理距离: 我希望能够转到
页面
,输入两个地址,单击“显示”,然后提取“按乌鸦飞
的
距离”和“按陆路运输
的
距离”值,并将它们保存到字典中。有没有办法用
Python
把数据输入到网页中?
浏览 2
提问于2011-08-13
得票数 8
回答已采纳
6
回答
并发缓存共享模式
c#
、
multithreading
、
design-patterns
、
concurrency
、
c#-4.0
好
的
,我不太确定
如何
最好地命名这个问题:)但是假设这个场景,您要出去获取一些网页(带有各种urls)并在本地缓存它。即使使用多个线程,缓存部分也很容易解决。但是,假设一个线程开始获取一个url,而几毫秒后,另一个线程想要获得相同
的
url。是否有好
的
模式使秒线程
的
方法等待第一个线程获取
页面
,将其插入缓存并
返回
它,这样您就不必执行多个
请求
了。我有一个松散
的
想法,那就是有一个字典,当你开始
抓取
一个
页面
并锁
浏览 6
提问于2010-12-08
得票数 1
回答已采纳
1
回答
页面
未完全处理
python
、
scrapy
我正在尝试从雅虎财经网站
抓取
新闻文章,为此,我想使用他们
的
网站地图
页面
我仍然通过在浏览器中停用javascript获得整个
页面
,并且我使用scrapy 1.6 谢谢。
浏览 13
提问于2019-11-04
得票数 0
4
回答
检查是否存在
请求
不工作
的
网站
python
、
web-scraping
所以,我在几天前学习了
Web
抓取
的
工作原理,今天我在这里闲逛。我想知道
如何
测试
页面
是否存在/
不存在
。所以,我查了一下,找到了
Python
check if website exists。requestsif request.status_code == 200: print('
Web
si
浏览 62
提问于2018-02-07
得票数 2
回答已采纳
2
回答
使用
Python
& lxml
抓取
时
如何
选择“加载更多
的
结果”按钮
python
、
web-scraping
、
lxml
在50条条目之后,它提供了一个加载更多
的
结果按钮。我需要自动选择它。我该怎么做呢。为了
抓取
,我使用
Python
,Lxml。
浏览 0
提问于2014-06-19
得票数 3
回答已采纳
2
回答
尝试将数据从网站加载到json文件中。
python
、
json
、
python-requests
m=1" print(r.text)print(r.json)继续::import json“,s,err.value)到None json.decoder.JSONDecodeError: err.value:第1列(char 0)”程序完成“★★ 我只想在json文件中加载数据,然后在我<em
浏览 2
提问于2020-05-10
得票数 0
2
回答
避免用于爬行
的
Google学者块
python
、
web-crawler
我使用了以下
python
脚本来从
python
中
抓取
google学者: print lines 但我反复这样做,所以我被这个网站屏蔽了--谷歌学者说: 当谷歌自动
检测
到来自您
的
计算机网络
的
<
浏览 5
提问于2013-01-25
得票数 0
回答已采纳
3
回答
Selenium缓慢向下滚动
python
、
selenium
、
web
、
screen-scraping
我正在尝试使用
Python
在javascript渲染
的
网页上进行动态
web
抓取
。 1)然而,只有当我缓慢地向下滚动
页面
时,元素才会加载。我试过了: driver.execute_script("window.scrollTo(0, Y)") (这不起作用,因为它只滚动到
页面
上
的
某个点,而忽略了其他结果) 和 driver.execute_script("window.scrollTo(0, document.body.scrollHeig
浏览 48
提问于2019-05-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
漫谈漏洞扫描器的设计与开发
零基础入门Python爬虫,一文掌握爬虫核心原理!
常用Python爬虫框架汇总
Python爬虫框架之pyspider
七款必备的Python爬虫库,你知道几个?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券