phpjavascript异步爬虫 - 腾讯云开发者社区

我正在构建一个爬虫，我正在使用来完成它。这是一个非常好的系统:)在开发过程中，我发现了一个问题，它更多地关系到如何构建我的爬虫，而不是aBot项目本身，但我希望您能帮助我。在设置爬虫时，我指定在爬行完成时要调用的方法，有同步和异步选项。crawler_ProcessPageCrawlCompleted;我想使用异步的一个当我爬行最后一个方法时，我调用

浏览 0提问于2013-11-06得票数 1

回答已采纳

1回答

如何使用gevent和线程爬行和处理(cpu密集型)数千个URL？

、、、、

我想要创建的过程：首先，用我从异步爬行器获得的结果填充队列会消耗很多内存其次，我很难同步线程和gevent爬虫，如何在填充结果的同时异步下载和处理

浏览 2提问于2015-03-29得票数 0

1回答

Javascript异步web爬虫

、、、、

我有一个异步功能，从csv文件中读取网站列表。 const fileStream = fs.createReadStream('.async function check_page(web_page){在这一点上，它工作正常，但现在我必须集成我的代码与网络爬虫。// Resolve here });

浏览 18提问于2021-02-09得票数 0

2回答

Scrapy默认是异步的吗？

、、、

我最近在我的项目中运行了一个爬虫，但我觉得它是在等待一个页面完成后才移动到另一个页面。如果scrapy的性质是正确的，它会移动到另一个页面，直到收到前一个页面的响应。向下滚动后，我看到使用了async def，这意味着通过添加显式地使该方法成为异步方法。如果我不把async-await放在我的爬虫里，它们不会变成异步的吗？它们是否等待接收到响应？

浏览 108提问于2020-05-07得票数 2

回答已采纳

1回答

Java异步套接字IO

、、、

我已经找遍了所有地方，但是我找不到一个很好的例子来解释NIO2或者如何使用Java进行异步IO。例如，如果我想要通过允许线程使用异步IO而不是常规的同步IO来读取套接字来加速web爬虫，我该如何实现呢？

浏览 2提问于2013-04-17得票数 0

回答已采纳

2回答

运行抓取爬虫的最简单方法，这样它就不会阻止脚本

、

给出了从代码中运行scrapy爬虫的许多方法：from scrapy.crawler import CrawlerProcess class MySpider(scrapy.Spider在python中，以非阻塞的异步方式运行爬虫最简单的方法是什么？

浏览 3提问于2016-02-26得票数 3

回答已采纳

2回答

如何从dll调用向可视化界面提供反馈？

、、

架构概述：我目前正在编写一个接口(UI)，用于“调试”我编写的爬虫(或一组爬虫器)。每个爬虫都是一个.dll。

浏览 2提问于2012-06-11得票数 0

回答已采纳

4回答

构建web爬虫

、、

我目前正在开发一个内置网络爬虫的自定义搜索引擎。由于某种原因，我不喜欢多线程，因此到目前为止，我的索引器是以单线程的方式编写的。现在，我在构建爬虫时遇到了一个小难题。

浏览 2提问于2009-05-14得票数 1

5回答

开关语句的运行时复杂性是多少？

、、、

如果答案是特定于实现的，我想知道以下几种语言： JavaC/C++C#PHPJavascript

浏览 10提问于2010-12-14得票数 52

回答已采纳

2回答

Android --如何使应用程序每天在后台自动运行，从互联网上获取数据？

、、

我正在开发一个使用Android的网络爬虫。目前，我的爬虫在每次应用程序启动时都使用异步任务来抓取网页，这需要很长时间。

浏览 1提问于2014-12-18得票数 1

1回答

在滚动时预先填充HTML和AJAX是否是SEO的一个很好的延迟加载策略？

、

由于为AJAX网站设置HTML快照是学习曲线之后的大量工作，因此我提出以下替代方法，以替代向爬虫提供静态内容。我想不出为什么这不是为爬虫提供静态HTML的顺利方式。我的意思是，如果他们真的不能索引异步内容，那么他们甚至不应该在看到原始内容之后才认识到上面的过程正在发生。我是不是漏掉了什么？

浏览 0提问于2014-03-29得票数 2

1回答

包含异步内容的博客搜索引擎优化

、

我计划使用一个sitemap.xml来引导爬虫到HTML页面，而不是静态的标记。问题：在爬虫分析页面之前，有什么方法可以确保加载内容吗？

浏览 0提问于2019-08-20得票数 1

1回答

web爬虫的异步请求

、、

由于节点的异步性质，我假设它不像我预期的那样工作，所以每次结果都是不同的顺序。我在googled上搜索了很多东西，尝试了不同的东西，比如使用自定义异步函数或请求承诺，而不是请求，但是没有什么效果。

浏览 0提问于2019-02-12得票数 0

1回答

Python爬虫。解析和执行ajax

、、、

我有一个爬虫的基本结构。现在我在一些php驱动的网站上发布了它，它就像一个护身符。不过，现在我想让它从ajax内容构建数据表。目前，我正在使用Mechanize for PYTHON和perl来构建我的爬虫。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容？

浏览 2提问于2012-01-26得票数 2

回答已采纳

4回答

我曾经用.NET写了一个爬虫，为了提高它的可伸缩性，我尝试利用.NET的异步API。因此，我的策略是使用BeginGetResponse/EndGetResponse异步获取响应流，然后使用BeginRead/EndRead异步从response实例获取字节。)的异步IO库必须在其异步IO中有一个关于未执行缓冲区(发送或接收)数量的上限。网络应用程序应该对它发布的未完成异步IO的数量有一个上限。有人有在Socket &a

浏览 10提问于2008-10-25得票数 9

0回答

用于单页面应用的Facebook共享器

facebook链接共享机制如下:当您想要将网站链接共享到Facebook时，facebook爬虫将尝试识别您的网页，并确定head标签中是否存在Facebook Open Graph标记。但是，由于此类数据是异步检索的，因此facebook爬虫不会获取产品信息。

浏览 7提问于2017-12-13得票数 0

回答已采纳

1回答

如何等待vue.js创建的钩子？

、

$prismic.client.getSingle的调用(...)在设置元标记中的内容之前(这很好用)，但是因为这需要getContent()方法是异步的，所以我还需要等待created()钩子中对this.getContent()的调用...这意味着我需要使created()钩子异步。这一点很重要，因为我们正在尝试让google搜索爬虫来读取我们的meta标签。我们得到的结果不一致。在谷歌搜索控制台中，它有时会找到标签，有时不会。我们正在尝试看看我们的代码中的异步/等待结构是否会有所帮助。这样，爬虫</

浏览 45提问于2020-01-16得票数 1

1回答

og:image:url与og:image之间的差异

、

我的网页应该同时包含og:image:url和og:image，还是只包含og:image 另外，我是否需要包括og:image:width和og:image:height

浏览 37提问于2021-06-17得票数 0

回答已采纳

1回答

如何同时抓取未知目的的分页网页？

、、、、

我正在尝试使用tokio异步运行时在Rust中编写一个web爬虫。我希望异步地获取/处理多个页面，但我也希望爬虫在到达末尾时停止(换句话说，如果没有什么可以抓取的东西)。到目前为止，我已经使用从作为Future提供的异步函数获得集体结果，但这显然需要程序事先知道要爬行的总页面。

浏览 3提问于2021-09-24得票数 1

回答已采纳

2回答

爬虫设计-调用异步作业与调用服务

、、、、

爬虫服务处理一个新抓取的url，然后：如果爬虫服务同步调用这两个服务这些异步作业还有其他更有说服力的原因吗？

浏览 5提问于2020-03-01得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在关闭应用程序之前等待异步事件完成？

如何使用gevent和线程爬行和处理(cpu密集型)数千个URL？

Javascript异步web爬虫

Scrapy默认是异步的吗？

Java异步套接字IO

运行抓取爬虫的最简单方法，这样它就不会阻止脚本

如何从dll调用向可视化界面提供反馈？

构建web爬虫

开关语句的运行时复杂性是多少？

Android --如何使应用程序每天在后台自动运行，从互联网上获取数据？

在滚动时预先填充HTML和AJAX是否是SEO的一个很好的延迟加载策略？

包含异步内容的博客搜索引擎优化

web爬虫的异步请求

Python爬虫。解析和执行ajax

.NET是否有可靠的异步套接字通信？

用于单页面应用的Facebook共享器

如何等待vue.js创建的钩子？

og:image:url与og:image之间的差异

如何同时抓取未知目的的分页网页？

爬虫设计-调用异步作业与调用服务

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐