WebSocket爬虫 - 腾讯云开发者社区

、、

我想从WebSocket数据源中抓取数据，通常WebSocket数据是一个没完没了的流，而allowed函数有Timout限制，最大允许值为900秒。如果我的Lambda函数充当WebSocket客户端并连接到WebSocket url (例如wss://ws-feed-public.sandbox.pro.coinbase.com )，它将开始接收数据现在，我正在Linux中运行我的爬虫，可以将它迁移到AWS吗？

浏览 6提问于2019-11-19得票数 1

回答已采纳

2回答

使用websocket在烧瓶中排队

、、、、

基本的想法是，你输入一个url，它就会以输入作为参数启动一个爬虫进程。目前，它似乎可以很好地处理通过websocket传输的输出。我很好奇什么是最好的方式来处理多个爬虫同时运行，所以如果两个人在同一时间输入一个网址。我认为最好的方法是使用队列系统，理想情况下，我只希望同时运行数量可控的爬虫。

浏览 1提问于2012-12-16得票数 0

1回答

带有Java Websocket客户端的Java websocket服务器

、、

我正在尝试编写一个基于java的爬虫程序，它通过https进行身份验证，然后一旦身份验证完成，客户端必须调用https请求将连接升级到websocket。application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate, br Sec-WebSocket-Version: 13 Origin: <host> Sec-WebSocket-Extensions: perme

浏览 14提问于2017-06-19得票数 0

1回答

试图弄清楚为什么Google Analyics报告的用户比我们自己的堆栈更多

、、、、

如果iframe看起来像爬虫程序，则不会加载useragent。iframe中的代码创建一个websocket连接，然后在我们的后端插入一个用户。使用新的Google Analytics UI，我不清楚到底有多少爬虫被过滤掉了(例如Google Analytics总是过滤Google Crawler吗？)这可以解释很多。额外的加载时间和websocket连接可能可以解释一些原因(不支持TLS1.2的旧浏览器，光头配置的代理，等等)可以解释一些原因，但1/3似乎很大。

浏览 17提问于2018-07-26得票数 0

1回答

无法在Lambda中创建AWS胶水爬行器，Lambda由Step函数触发

、、、、

该查询成功运行，并在给定的S桶中生成结果要在Lambda中创建AWS爬虫，下面是我在Lambda (NodeJS)中的代码： };}; Problem createCrawler是一个异步调用，La

浏览 2提问于2021-08-14得票数 1

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

在python web爬虫中使用websocket -- rsv还没有实现。

、、、

我使用websocket成功地与目标wss-url建立了长时间的连接。但是在收到一条消息后，代码捕获了一个名为"rsv尚未实现“的错误，并关闭了连接。而且websocket的API文档也没有提到这个问题。###") ws = websocket.WebSocketApp(url, on_message = on_message

浏览 0提问于2018-10-17得票数 1

1回答

EJB未注入

、、、

我的Java应用程序使用，它使用以下代码开始抓取：config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC

浏览 3提问于2012-07-01得票数 0

回答已采纳

1回答

AWS雅典娜分区键变成“varchar”

、、、

例如，我有两个分区键，account_id作为int，record_date作为date。当我执行一个查询时，雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么？

浏览 5提问于2022-09-29得票数 0

1回答

使用noindex no追随者修复来自Google的移动可用性警告

、

我有一个移动网站，它确实显示使用是移动友好的，但我收到一条消息说，日历页面上有可用性错误，这是网站的一部分，但不是移动友好的。我最终将使这一页移动友好，但就目前而言，我只是希望谷歌，而不是将其视为移动网站的一部分。所以我的问题是，通过在页面上使用noidex，Google会忽略它，而不会对它的可用性进行评估。

浏览 4提问于2015-03-22得票数 0

1回答

如何在一个python脚本中运行不同的scrapy项目

、、

我是Scrapy的新手，在同一个脚本中调用多个爬虫项目时遇到了一些困难。我有三个抓取项目，分别抓取不同的网页，并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。

浏览 3提问于2016-04-21得票数 0

1回答

爬虫和爬虫架构

、、、、

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4提问于2012-04-16得票数 2

回答已采纳

1回答

Scrapy spider不存储状态(持久状态)

、

嗨，我有一个基本的蜘蛛，运行来获取给定的域上的所有链接。我希望确保它保持其状态，以便可以从它离开的地方恢复。当我第一次尝试时，我遵循了给定的url .But，它运行得很好，我以Ctrl+C结束它，当我试图恢复它时，爬行会在第一个url上停止。2016-08-29 16:51:08 [scrapy] INFO: Dumping Scrapy stats: 'downloader/request_count': 4, 'downloader/request_m

浏览 20提问于2016-08-30得票数 3

1回答

HTML流的SEO/爬行性影响

、、

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

3回答

如何停止云主机上的爬虫？

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 403提问于2018-01-27

1回答

两个开放图形图像(facebook大小和google大小)

、、、

我如何包括开放图形图像(两个不同的；两个不同的大小)

浏览 0提问于2015-05-27得票数 1

回答已采纳

1回答

AWS Glue -在处理XML文件时保留前导零

、、、

我将XML文件存储在s3桶中，并运行爬虫来生成目录表中的模式。生成了目录表，但是当我在AWS Glue Studio中检查输出时，我可以看到以0开头的数据正在被删除。

浏览 4提问于2022-01-15得票数 2

1回答

如何为我的网站编制索引

、

我刚刚遇到了Elastic Search，我已经完成了安装和示例索引以及搜索。现在我想把这个用在我的网站上。为此，如何为我的网站创建索引？我是否需要将整个网页内容存储为索引？？

浏览 0提问于2011-06-07得票数 1

回答已采纳

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0提问于2013-05-23得票数 2

点击加载更多