腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何使用AWS接收无休止的
WebSocket
数据源?
、
、
我想从
WebSocket
数据源中抓取数据,通常
WebSocket
数据是一个没完没了的流,而allowed函数有Timout限制,最大允许值为900秒。如果我的Lambda函数充当
WebSocket
客户端并连接到
WebSocket
url (例如wss://ws-feed-public.sandbox.pro.coinbase.com ),它将开始接收数据现在,我正在Linux中运行我的
爬虫
,可以将它迁移到AWS吗?
浏览 6
提问于2019-11-19
得票数 1
回答已采纳
2
回答
使用
websocket
在烧瓶中排队
、
、
、
、
基本的想法是,你输入一个url,它就会以输入作为参数启动一个
爬虫
进程。目前,它似乎可以很好地处理通过
websocket
传输的输出。我很好奇什么是最好的方式来处理多个
爬虫
同时运行,所以如果两个人在同一时间输入一个网址。我认为最好的方法是使用队列系统,理想情况下,我只希望同时运行数量可控的
爬虫
。
浏览 1
提问于2012-12-16
得票数 0
1
回答
带有Java
Websocket
客户端的Java
websocket
服务器
、
、
我正在尝试编写一个基于java的
爬虫
程序,它通过https进行身份验证,然后一旦身份验证完成,客户端必须调用https请求将连接升级到
websocket
。application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate, br Sec-
WebSocket
-Version: 13 Origin: <host> Sec-
WebSocket
-Extensions: perme
浏览 14
提问于2017-06-19
得票数 0
1
回答
试图弄清楚为什么Google Analyics报告的用户比我们自己的堆栈更多
、
、
、
、
如果iframe看起来像
爬虫
程序,则不会加载useragent。iframe中的代码创建一个
websocket
连接,然后在我们的后端插入一个用户。使用新的Google Analytics UI,我不清楚到底有多少
爬虫
被过滤掉了(例如Google Analytics总是过滤Google Crawler吗?)这可以解释很多。额外的加载时间和
websocket
连接可能可以解释一些原因(不支持TLS1.2的旧浏览器,光头配置的代理,等等)可以解释一些原因,但1/3似乎很大。
浏览 17
提问于2018-07-26
得票数 0
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
、
、
、
、
该查询成功运行,并在给定的S桶中生成结果 要在Lambda中创建AWS
爬虫
,下面是我在Lambda (NodeJS)中的代码: };}; Problem createCrawler是一个异步调用,La
浏览 2
提问于2021-08-14
得票数 1
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
在python web
爬虫
中使用
websocket
-- rsv还没有实现。
、
、
、
我使用
websocket
成功地与目标wss-url建立了长时间的连接。但是在收到一条消息后,代码捕获了一个名为"rsv尚未实现“的错误,并关闭了连接。而且
websocket
的API文档也没有提到这个问题。###") ws =
websocket
.WebSocketApp(url, on_message = on_message
浏览 0
提问于2018-10-17
得票数 1
1
回答
EJB未注入
、
、
、
我的Java应用程序使用,它使用以下代码开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
1
回答
AWS雅典娜分区键变成“varchar”
、
、
、
例如,我有两个分区键,account_id作为int,record_date作为date。当我执行一个查询时,雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么?
浏览 5
提问于2022-09-29
得票数 0
1
回答
使用noindex no追随者修复来自Google的移动可用性警告
、
我有一个移动网站,它确实显示使用是移动友好的,但我收到一条消息说,日历页面上有可用性错误,这是网站的一部分,但不是移动友好的。我最终将使这一页移动友好,但就目前而言,我只是希望谷歌,而不是将其视为移动网站的一部分。所以我的问题是,通过在页面上使用noidex,Google会忽略它,而不会对它的可用性进行评估。
浏览 4
提问于2015-03-22
得票数 0
1
回答
如何在一个python脚本中运行不同的scrapy项目
、
、
我是Scrapy的新手,在同一个脚本中调用多个
爬虫
项目时遇到了一些困难。我有三个抓取项目,分别抓取不同的网页,并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。
浏览 3
提问于2016-04-21
得票数 0
1
回答
爬虫
和
爬虫
架构
、
、
、
、
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
提问于2012-04-16
得票数 2
回答已采纳
1
回答
Scrapy spider不存储状态(持久状态)
、
嗨,我有一个基本的蜘蛛,运行来获取给定的域上的所有链接。我希望确保它保持其状态,以便可以从它离开的地方恢复。当我第一次尝试时,我遵循了给定的url .But,它运行得很好,我以Ctrl+C结束它,当我试图恢复它时,爬行会在第一个url上停止。2016-08-29 16:51:08 [scrapy] INFO: Dumping Scrapy stats: 'downloader/request_count': 4, 'downloader/request_m
浏览 20
提问于2016-08-30
得票数 3
1
回答
HTML流的SEO/爬行性影响
、
、
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
3
回答
如何停止云主机上的
爬虫
?
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 403
提问于2018-01-27
1
回答
两个开放图形图像(facebook大小和google大小)
、
、
、
我如何包括开放图形图像(两个不同的;两个不同的大小)
浏览 0
提问于2015-05-27
得票数 1
回答已采纳
1
回答
AWS Glue -在处理XML文件时保留前导零
、
、
、
我将XML文件存储在s3桶中,并运行
爬虫
来生成目录表中的模式。生成了目录表,但是当我在AWS Glue Studio中检查输出时,我可以看到以0开头的数据正在被删除。
浏览 4
提问于2022-01-15
得票数 2
1
回答
如何为我的网站编制索引
、
我刚刚遇到了Elastic Search,我已经完成了安装和示例索引以及搜索。现在我想把这个用在我的网站上。为此,如何为我的网站创建索引?我是否需要将整个网页内容存储为索引??
浏览 0
提问于2011-06-07
得票数 1
回答已采纳
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因为这
浏览 0
提问于2013-05-23
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
websocket
Websocket
WebSocket 协议介绍及 WebSocket API 应用
WebSocket实战
手摸手教你使用WebSocket其实WebSocket也不难
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券