腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Splash
的
Scrapy
不会
等待
网站
加载
python
、
scrapy
、
scrapy-splash
、
splash-js-render
我试图通过Python脚本调用
Splash
来呈现和抓取一个交互式
网站
,基本上遵循这个from
scrapy
_
splash
import SplashRequest start_urls = ["http://example.com"] def start_requests(self):with open(filename, 'wb
浏览 5
提问于2018-08-12
得票数 3
1
回答
使用
scrapy
抓取动态网页中
的
数据
javascript
、
dynamic
、
scrapy
它成功地抓取了活动摘要、活动详细信息和为什么它
的
绿色部分,但是,当我爬行LEED仪表板部分时,响应是空
的
。具体地说,我希望得到6个分数,EA、MR、IEQ、SS、WE和ID,但是当我使用这个xpath时,这些值都是空
的
。response.xpath("//*[@id='overview
浏览 3
提问于2021-05-06
得票数 0
2
回答
Python
Scrapy
Splash
不渲染
网站
,停留在
加载
屏幕
scrapy
、
scrapy-splash
、
splash-js-render
我想用
Scrapy
Splash
呈现以下
网站
。https://m.mobilebet.com/en/sports/football/england-premier-league/ 不幸
的
是,
Splash
总是停留在
加载
屏幕: ? 我已经尝试使用较长
的
等待
时间(最多60秒),但没有结果。我
的
Splash
版本是3.3.1,并且已经将obey rob
浏览 65
提问于2019-05-04
得票数 1
1
回答
使用
Scrapy
和
Splash
将动态页面重新呈现为HTML
python
、
scrapy
、
scrapy-splash
爬行器会爬行(状态代码200),但是
Splash
不会
在JavaScript呈现后将页面呈现回本地主机地址。蜘蛛
的
密码:from
scrapy
_
splash
import SplashRequest name= '
scrapy
_
splash
.SplashAwareDupeFilter' HTTPCACHE_ST
浏览 19
提问于2021-12-27
得票数 0
1
回答
使用
Scrapy
1.6.0 got调试:爬行(200)
python
、
scrapy
我刚开始刮擦,试着在不同
的
页面上爬行。 name = "chrome" chromeOptions = webdriver.C
浏览 1
提问于2019-11-15
得票数 0
回答已采纳
1
回答
自动在
Splash
和
Scrapy
中向下滚动页面
scrapy
、
scrapy-splash
我正在爬行一个
网站
,它使用延迟
加载
产品图像。我也尝试过
等待
参数29.0秒,但我
的
爬虫仍然很难得到10个条目(根据计算它应该会带来280个条目)。我有一个项目pipleline,它检查该项目中
的
浏览 1
提问于2017-07-22
得票数 2
1
回答
Scrapy
Spash不爬行
python
、
scrapy
、
scrapy-splash
我正在尝试对搜索一家公司
的
年报返回
的
链接进行非常基本
的
打印,链接如下:https://www.mergentarchives.com/searchResults.php?&compNumber=37958&aracompNumber=0 我需要使用
Splash
来渲染链接,因为这个
网站
是用javascript编写
的
,搜索结果是动态
加载
的
。这是我非常简单
的
代码: import
scra
浏览 17
提问于2021-06-28
得票数 0
1
回答
Scrapy
- CSS选择器问题
scrapy
、
web-crawler
我想从a元素中获取位于href属性中
的
链接。url为:https://www.drivy.com/location-voiture/antwerpen/bmw-serie-1-477429?end_time=18%3A30&latitude=51.2162&longitude=4.4209&start_date=2019-05-20&start_time=06%3A00 我正在搜索这个元素
的
href
浏览 23
提问于2019-05-10
得票数 0
回答已采纳
2
回答
多个Selenium实例
的
Scrapy
(并行)
python
、
selenium
、
scrapy
我需要用Selenium和
Scrapy
抓取很多网址。为了加快整个过程,我正在尝试创建一组共享
的
Selenium实例。我
的
想法是,如果需要,让一组并行Selenium实例可用于任何Request,如果需要,则提供released。我试图创建一个Middleware,但问题是Middleware是顺序
的
(我看到所有的驱动程序(我称之为浏览器)都在
加载
urls,而且似乎是顺序
的
)。我希望所有的驱动程序并行工作。browser.current_url, body=body
浏览 84
提问于2019-01-23
得票数 0
1
回答
Scrapy
在网页上显示
加载
web-scraping
、
scrapy
、
scrapy-splash
我正在尝试抓取,但是页面在
加载
时被卡住了。我甚至把
等待
时间改成了7秒。但问题依然存在。有什么解决方案吗?
浏览 2
提问于2018-02-20
得票数 0
1
回答
抓取-动态
等待
页面
加载
- selenium +
Scrapy
python
、
selenium
、
web-scraping
、
scrapy
该页面使用ajax调用
加载
数据,并且我首先
等待
一个固定
的
time_out来
加载
该页面。有一段时间起作用了。之后,我发现selenium有一个内置函数WebDriverWait,它可以使用wait.until()
等待
一个特定
的
元素
加载
。这让我
的
网刮刀跑得更快了。我试图对此进行并行化,但时间并没有变得更好,因为如果驱动程序实例(使用Chrome或PhantomJS)<
浏览 5
提问于2017-09-18
得票数 3
回答已采纳
1
回答
如果搜索产生
的
结果多于显示
的
结果,则清除隐藏页面
python
、
web-scraping
、
beautifulsoup
在下输入
的
一些搜索查询会产生超过1,000个结果(动态显示在搜索页面上)。但是,结果最多只能显示100个页面,每个页面有10个结果,所以我试图在给定一个产生超过1,000个结果
的
查询
的
情况下收集剩余
的
数据。抓取前100页
的
ID
的
代码是(需要大约2分钟浏览全部100页):import requests # as the max number of(page),这
不会
产生额外
的
结果。我如何才能
浏览 1
提问于2020-01-03
得票数 0
1
回答
即使xpath在chrome.Why中是正确
的
,
Scrapy
shell也会给出一个空列表
的
输出?
scrapy
、
scrapy-shell
在
Scrapy
shell上执行fetch(url)fetch(r) response.xpathclass='c2prKC']/div/div/div/div[@class='c16H9d&
浏览 1
提问于2020-07-24
得票数 1
2
回答
Scrapy
不
加载
页面
web-scraping
、
scrapy
我使用
的
是
scrapy
,start_url
的
结构如下:
Scrapy
不
加载
页面:
scrapy
shell https://www.yoox.com/us/men/sho
浏览 0
提问于2019-06-20
得票数 1
1
回答
Scrapy
HTTP状态代码未处理或不允许
python
、
scrapy
、
scrapy-splash
、
scrapyd
我正在使用
scrapy
-
splash
来抓取一个使用javascript
加载
结果
的
汽车经销商
网站
,但我一直收到错误504 Gateway Time-out。我有docker和Win10,我不认为问题出在docker配置上,因为我可以用相同
的
代码抓取另一个站点。import
scrapy
from
scrapy
.loader import I
浏览 24
提问于2021-02-10
得票数 0
1
回答
刮擦-
Splash
不呈现此页面
python
、
html
、
web-scraping
、
scrapy
、
scrapy-splash
谁能帮我理解一下为什么
Splash
不会
呈现这个页面,这样我就可以刮掉它了。中拥有的与
Splash
相关
的
设置: '
scrapy
_
splash
.SplashCookiesMiddleware= '
scrapy
_
splash
.Spla
浏览 0
提问于2018-07-20
得票数 1
1
回答
刮擦-
等待
页面
加载
的
飞溅
python
、
lua
、
scrapy
、
scrapy-splash
不过,有一点要注意
的
是,我主要是从内部工具和应用程序中抓取数据,所以有些工具和应用程序需要身份验证,而且所有这些都需要至少几秒钟
的
加载
时间才能完全
加载
页面。基本上,SplashRequest和
scrapy
.Request似乎都会运行并产生结果。然后,我了解了LUA脚本作为这些请求
的
参数,并尝试了使用不同形式
的
wait()形式
的
LUA脚本,但看起来这些请求实际上从未运行过LUA脚本。它马上就完成了,我
的
HTMl选择器找不到我要找
浏览 0
提问于2019-08-30
得票数 0
回答已采纳
1
回答
使用
scrapy
splash
对抓取速度有显著影响吗?
python
、
selenium
、
web-scraping
、
scrapy
、
scrapy-splash
到目前为止,我一直在使用
scrapy
和编写自定义类来处理使用ajax
的
网站
。但是,如果我使用
scrapy
-
splash
,据我所知,它会在javascript之后抓取呈现
的
html,爬虫
的
速度会受到严重影响吗?使用
scrapy
抓取一个普通
的
html页面所需
的
时间与使用
scrapy
-
splash
抓取javascript渲染
的
html所需
的
时间进行了怎
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
2
回答
Google App Engine:为
Scrapy
+
Splash
加载
另一个Docker图像
docker
、
google-app-engine
、
scrapy
、
scrapy-splash
、
splash-js-render
我想在Google App Engine中使用
Scrapy
+
Splash
刮掉一个javascript
网站
。
Splash
插件是一个Docker镜像。App Engine本身使用Docker镜像,但我不确定如何
加载
和访问次要镜像(
Splash
是如何使用
的
)。
浏览 3
提问于2019-11-13
得票数 5
1
回答
如何使用BeautifulSoup抓取javascript生成
的
数据?
javascript
、
python
、
json
、
web-scraping
、
beautifulsoup
我正在尝试通过python和BeautifulSoup使用网络抓取来迁移博客中
的
一些评论。我要查找
的
内容不在HTML本身中,似乎是在脚本标记中生成
的
(我找不到它)。我已经看到了一些关于这个问题
的
答案,但大多数都是针对某个问题
的
,我似乎不知道如何将其应用到我
的
网站
上。我只是试着从像这样
的
页面中收集评论: 如果我把行话搞
浏览 26
提问于2018-01-23
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券