js可以做爬虫吗_c语言可以做爬虫吗_js可以写爬虫吗 - 腾讯云开发者社区

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

Googlebot执行谷歌标签管理器吗？

、、、

我想了解Googlebot (和其他爬虫)如何爬行我的网站。具体而言，它是否传递一个document.referrer，如果它维护localStorage密钥，那么我通过Google实现了一个脚本，该脚本检测这些爬虫并将数据记录到Logstash。这是我用来检测爬虫用户代理的条件(为爬虫返回true )： function() { if(navigator.userAgent.indexOf('robot de Google') < 0 && navigator.userAgent.indexOf('Googlebot') <

浏览 0提问于2018-02-09得票数 4

回答已采纳

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

、

不会为爬虫加载google-analitics js会导致问题吗？目前，我想停止加载一些外部js时，爬虫探索我的网站。对我来说，最简单的方法就是不加载google分析。这对SEO不好吗？我找不到关于这件事的多少信息。

浏览 0提问于2017-09-19得票数 1

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2提问于2013-03-18得票数 3

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。请帮帮我

浏览 2提问于2014-09-28得票数 1

1回答

Symfony DomCrawler如何单击执行js代码的链接

、、、、

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？我试着这样做，但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt7 DJuf"]')->link();

浏览 82提问于2021-02-03得票数 0

1回答

向机器人隐藏代码

、、、、

我只是在想。有没有一种方法只对爬虫隐藏页面的特定部分？我知道我可以设置"display: none“，然后用JS将其显示给用户。在过去，它可以工作，但现在爬虫(/will )更聪明(尤其是谷歌的爬虫)，可以阅读JS。那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。 PS #1:我只是在想，我没有理由这么做(现在？) PS #2:也许AJAX是可能的？但没有理由不让智能js阅读爬虫来隐藏它。谢谢大家，麦芽酒

浏览 6提问于2014-10-16得票数 0

回答已采纳

4回答

用php编写客户端重定向服务器端

、、、

我正在寻找一个客户端重定向到另一个领域的PHP。我不想做301 - 302 - 307等重定向的原因是因为我希望页面向爬虫程序发送一个200HTTP OK响应。我通常使用混淆的JavaScript在静态use主机(如S3 )上执行此操作，但是，我意识到爬虫程序可能会拾取JS，因为它是客户端。我使用的未被阻塞的JS代码示例； window.location.href = "http://yourURL.com"; 然而，爬虫很难找到PHP，所以我想做一个类似的重定向，但用的是PHP。如果有人能分享他或她的意见，这将是最好的方式。提前感谢！

浏览 0提问于2015-07-29得票数 0

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

1回答

禁用js时，在reactjs中设置动态元标记

、

我遇到了一些问题谷歌爬虫和元标签，我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效，但谷歌搜索似乎找不到我添加的标签。我知道爬虫在没有启用js的情况下运行网站，在测试时我可以看到，当js被禁用时，头盔不会呈现标签(启用时可以正常工作)。当js被禁用时，反作用头盔不会渲染标签，这可能是谷歌搜索中描述和标题错误的原因。当js被禁用时，找到一种呈现适当标记的方法可能会解决这个问题。知道怎么做吗？谢谢你的帮助。

浏览 0提问于2020-12-28得票数 0

回答已采纳

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

通过Javascript共享Facebook链接返回错误500

、、、

我在研究Facebook的分享者。它需要能够共享常规链接(例如)和Facebook内容(例如)。为了做到这一点，我调用JS API如下： FB.ui({ method: 'share', href: #LINK#, }, function(response){ console.log(response); }); 但是，虽然这在常规链接中运行得很好，但它在Facebook内容上返回了一个错误500。编辑事实证明，Facebook爬虫不会刮掉Facebook的链接，因此它们不能以这种方式共享。有人知道解决办法吗？

浏览 0提问于2014-08-28得票数 0

1回答

使用多个EC2实例爬行

、

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。因此，在这一点上，我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。我在想用小的，分开的爬行器：有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip，我就有更好的网络利用率。我可以旋转几个爬虫或缩小规模取决于我目

浏览 2提问于2015-01-08得票数 0

回答已采纳

1回答

如何在node.js中发出https请求

、、

我要做个爬虫。对于http请求，我曾经这样做过。 var http=require('http'); var options={ host:'http://www.example.com', path:'/foo/example' }; callback=function(response){ var str=''; response.on('data',function(chunk){ str+=chunk; }); response.on('end', funct

浏览 2提问于2015-01-18得票数 1

回答已采纳

1回答

在cronjob上优化爬虫脚本

、、、、

我在一个MySQL表中有大约6600万个域，我需要在所有域上运行爬虫，并在爬虫完成时更新行计数=1。爬虫脚本在php中，使用php爬虫库，这里是脚本。 set_time_limit(10000); try{ $strWebURL = $_POST['url']; $crawler = new MyCrawler(); $crawler->setURL($strWebURL); $crawler->addContentTy

浏览 2提问于2015-03-01得票数 1

1回答

在同构React上处理SEO

、、、、

我正在使用React & Node JS来构建通用应用程序()。我也使用反应头盔作为库来处理页面标题，元，描述等，但我有一些问题，当我使用ajax动态加载内容时，谷歌爬虫无法正确获取我的网站，因为内容将被动态加载。有什么建议来解决这个问题吗？谢谢!

浏览 1提问于2016-09-26得票数 0

2回答

facebook爬虫需要ajax预渲染页面吗

、、

有了angular JS的网站，google就能够解析解释过的内容。但是与facebook共享一个链接，facebook爬虫是否也能够解析解释的内容，或者我们必须提供静态页面(例如prerender.io)？

浏览 39提问于2016-08-16得票数 0

2回答

如何在Asp.net MVC中检测爬虫

、、

我正在使用一个动作过滤器，它可以检查我的网站上使用的浏览器版本，如果是较旧的浏览器，我会在顶部放置一个div，要求他们升级。我不想让网络爬虫得到div消息，所以我实现了HttpBrowserCapabilitiesBase.Crawler，它看起来对谷歌有效，但必应和其他爬虫似乎没有注册为爬虫。奇怪的是，微软的产品没有注意到Bing作为一个爬虫！有什么方法可以将用户代理添加到crawler属性中吗？谢谢! 编辑:我正在使用asp.net MVC3，看起来我需要使用.Browser文件(？)。有没有人知道为Bing和其他爬虫提供了一套全面的.Browser文件？

浏览 0提问于2011-09-28得票数 4

回答已采纳

4回答

在AJAX页面上启用SEO

、、

我正在尝试在客户端动态构建站点，通过JavaScript +一个JSON内容服务器，js检索内容，然后在客户端构建页面。现在，Google不会以这种方式对内容进行索引。有解决这个问题的办法吗？比如有一个爬虫版本和一个用户版本？或者拥有某种静态归档？已经有人这么做了吗？

浏览 0提问于2009-06-11得票数 2

回答已采纳

1回答

Vue.js /Crawler无法跟踪v生成的链接

、、、

我有一个小网站，它使用Laravel和Vue.js来呈现一个列表。您可以查看它。看起来谷歌爬虫无法跟踪v-for生成的链接。 Google说：Not found: vergleichen/%7B%7B%20anbieter.slug%20%7D%7D和我认识的所有页面爬虫都无法抓取链接。我做错什么了？有解决办法吗？任何帮助都是非常感谢的♥ 更新 @Linus:您的假设是正确的，是我的刀片文件的内容，JS看起来如下： var suche = new Vue({ el: '#suchen', data: { search: ''

浏览 3提问于2016-04-16得票数 1

3回答

Python- Twitter爬虫

、

我想询问是否有任何方法可以让我的爬虫一直到页面底部，并等待页面加载(以便加载的帖子的html将被添加)。因为twitter的html代码只显示几篇文章，你必须手动向下滚动才能在加载底部文章后刷新html。<html></html>标签将只显示当前存在的帖子，而我的爬虫程序将停止。 def spider(targetname, DOMAIN, g_data): for item in g_data: try: name = item.find_all("strong", {"class": &

浏览 1提问于2017-05-30得票数 1

1回答

web爬虫中的索引步骤

、

我正在编写一个网络爬虫(重点网络爬虫)，其中：输入: seedsURL 输出:更大的seedsURL def crawl(seedURL, pageslimit): crawling code ... return list of urls crawled 现在我需要索引和存储数据，以方便快速和准确的信息检索(搜索引擎)。我的爬虫返回URL列表，如何将它们传递到索引阶段？我应该在文本文件中下载每个页面的内容吗？是否有一些工具或库来执行索引步骤？还是要手动完成呢？

浏览 3提问于2014-04-21得票数 0

5回答

如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面？

、、、、

我有一个Windows客户端应用程序，它使用托管在共享商业php服务器中的php页面。在这个php页面中，我将返回一个加密的json。同样在这个页面中，我有一段代码来跟踪哪个in正在访问这个php页面，并且我注意到有一个spyder/Nutch-2爬虫正在访问这个页面。我在想，一个爬虫怎么可能找到一个没有在任何搜索引擎中发布的页面。我有办法阻止爬虫访问这个特定的页面吗？我应该使用.htaccess文件来配置它吗？

浏览 7提问于2014-04-15得票数 1

1回答

如何从Nutch爬行网页数据库中获取XML格式的信息

、、、

我正在尝试建立图书聚合门户。Nutch为我提供了优秀的网络爬虫，但我想要非常具体的信息，如书名，书价，ISBN，作者等。如何从爬虫页面提取这些信息？如果可能的话，我想以XML格式获取这些信息。除此之外，我想问一问，这是不是正确的做法！用其他开源软件能更好地做到这一点吗？

浏览 0提问于2013-04-10得票数 1

回答已采纳

1回答

如何使用express.js正确分配有效载荷以获取函数

、、

我目前正在努力学习如何使用节点+速递+啦啦队来构建爬虫。在这条路上，我说： [index.js] app.get('/api/crawler/android', crawlerController.android); 它调用控制器 [crawler-controller.js] var androidCrawler = require('../crawlers/android') module.exports.android = androidCrawler.androidget; 然后我调用爬行器(基于cheerio) [crawler.js] var

浏览 0提问于2017-09-28得票数 0

回答已采纳

1回答

如何制作一个使用Javascript路由器的可索引网站？

、、、、

我一直在开发一个使用Backbone.js路由器的项目，所有数据都是通过restful请求由javascript加载的。我知道无法检测服务器端是否启用了Javascript，但是下面是我想让这个网站可索引的场景：我可以为sitemap.xml上的每个链接追加一个查询字符串，并可以放置一个<script>标记来检测是否启用了Javascript。服务器使用可索引数据呈现此页面，当用户访问此页面时，我可以手动初始化Backbone.js路由器。然而，问题是，我需要执行一个sql查询来在服务器端呈现可索引的数据，如果访问者不是机器人，它将导致额外的负载。当用户在某个地方共享该网站的

浏览 1提问于2013-01-06得票数 2

回答已采纳

2回答

在C#中可以伪造用户代理吗？

、、

我想用C#创建一个爬虫。问题是，一些网站在其robots.txt文件中禁用了黑名单爬虫，使用： User-agent: * Disallow: / 有什么办法可以伪造我的请求来证明我是Googlebot吗？

浏览 3提问于2012-04-09得票数 0

回答已采纳

1回答

为什么是try_files？(prerender.io nginx )

、

我不明白 of 为什么是try_files？使用try_files，location @prerender永远不会被解雇！我看到的是以下行为：如果从浏览器访问任何页面，则nginx将静态/本地地为其服务。如果该页面是从某个爬虫中访问的，则由代理提供服务。官方的片段似乎没有这样做，但是官方医生说：您安装在服务器上的Prerender.io中间件将检查每个请求，以确定它是否是来自爬虫的请求。如果是来自爬虫的请求，中间件将向Prerender.io发送一个请求，以获取该页面的静态HTML。如果没有，请求将继续到您的正常服务器路由。爬虫永远不知道您使用的是Prerender.io

浏览 0提问于2018-05-13得票数 0

2回答

使用node.js创建启用javascript的web爬虫

、

这不一定是一个爬虫，但我想它更容易理解说明的方式。给定HTML，浏览器加载/执行javascript (+应用样式) 我想在node.js中执行同样的任务。即。给定html，node.js将加载脚本(通过<script>标记或require()调用)并执行脚本(主要用于呈现)。 as的res.render似乎不接受html-string作为输入。如何用节点模拟浏览器的javascript呈现能力？假设node.js get与浏览器获得的地址相同的html？您可以想到一个web爬虫，它获取html并执行javascript来呈现页面。编辑虽然，与常规爬行任务有

浏览 2提问于2015-02-01得票数 2

1回答

指向根目录的HTML站点地图链接

、

我有一个由以下元素组成的HTML站点地图( sitemap链接到我的页脚) logo (linking to / ) link for the first block of 150 links link for the second block of 150 links .... 我现在有一个SEO魔术大师，这不能解释我为什么，但他说，标志必须链接到首页和每一页与150个链接块应该链接到/sitemap。他简单地说：“这正是谷歌所喜欢的”。我是开发商。我知道爬虫的工作原理，以及那些写得很好的爬虫器(我们可以假设google爬虫是最先进的爬虫器)，解析页面中的所有链接，只访问/爬行以前没有访问

浏览 0提问于2012-07-14得票数 3

回答已采纳

1回答

在nodejs/express中如何允许爬虫使用站点地图

、、

在nodejs/express中，如何允许爬虫使用站点地图？下面的代码是我的应用程序流的一部分，我应该把我的站点地图文件夹/文件放在哪里？以及如何允许爬虫？现在访问domain/sitemap/sitemap.xml节目找不到。 project/app/app.js app.js require('./RouteHandler.js')(app, express); RouteHandler.js ... var routesIndex = require('./routes/Index/Base.js'); app.use('/', rout

浏览 2提问于2015-09-06得票数 1

回答已采纳

1回答

获得单页应用程序adsense批准

、

我所拥有的是一个react.js (javascript服务)前端单页网页应用程序，有几个“页面”。这个网站为人们提供了一种赢钱的方法(通过玩一个简单的猜谜游戏)，而我从广告中拿出了一部分。用户来了，但广告不存在。我知道adsense爬虫不同于google爬虫，我的站点没有正确地爬行，因为它只看到index.html，因为它似乎没有执行任何javascript。那么，我是否需要将javascript提供的许可放在我的应用程序中，以便在特定的页面上服务?如果需要，我只是将其放在一个被批准的或多个页面上吗？任何评论或反馈都将受到极大的赞赏，因为我开始认为我必须在一个更静态的框架内重新创建这个

浏览 0提问于2018-07-17得票数 1

1回答

在加载在JavaScript中的页面中检测PhantomJS

、、

我正在使用PhantomJS作为爬虫；如果页面中没有JS，我可以假设当onLoadFinished触发时JS已经完全加载，但是如果页面中有JS，我需要稍等片刻才能让脚本有机会完成操作。这是我目前在检测JS时所做的努力： var pageHasJS = page.evaluate(function () { return (document.getElementsByTagName("script").length > 0 || document.evaluate("count(//@*[starts-with(name(),

浏览 4提问于2014-05-21得票数 4

1回答

如何等待vue.js创建的钩子？

、

我有一个vue.js应用程序，我需要在其中等待对Prismic的调用。问题是调用从创建的钩子开始，但我不知道如何告诉vue等待钩子。代码如下： ... async created() { await this.getContent(); }, methods : { async getContent () { let document = null; try { document = await this.$prismic.client.getSingle(...); } catch(err) { return; }

浏览 45提问于2020-01-16得票数 1

3回答

Backbone和SEO伪装

、、

因此，我使用Backbone.js构建了一个页面，其中包含一个jquery datatable和一个带有搜索选项的面板(用于过滤datatable中的数据)。现在，我希望这个页面被谷歌或其他引擎索引。问题是，搜索面板是通过Javascript使用主干视图创建和附加的，这意味着谷歌不会看到这一点，因为爬虫不会执行javascript。这被认为是搜索引擎优化的伪装吗？这个网站会被封杀吗？

浏览 2提问于2013-04-21得票数 0

回答已采纳

2回答

颤振网络: SPA:开放图形:动态分配og:图像元标记

、、、、

试图创建动态og:图像标签，供爬虫捕捉适当的缩略图。我有一个JS脚本，生成适当的og:image url，但是爬虫在搜索时似乎没有运行任何JS。有更好的方法吗？目前： <head> <script> const queryString = window.location.href; const urlParams = new URLSearchParams(queryString); const uid = urlParams.get('uid') const pid = urlParams.get('pid

浏览 0提问于2020-08-11得票数 3

回答已采纳

6回答

使用node.js服务Backbone.js应用程序的内容，搜索搜索引擎优化爬虫

、、、

要么是我的google-fu让我失望了，要么就是还没有太多的人这么做。正如您所知，Backbone.js有一个弱点--它不能为页面爬虫(比如googlebot )呈现的html提供服务，因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎，以及JavaScript应用程序正在崛起这一令人警醒的事实，我预计有一天会发生这种情况)。我知道Google有一个hashbang的解决方案，但这只是一个糟糕的主意。另外，我正在使用PushState。这对我来说是一个极其重要的问题，我也希望对其他人也是如此。SEO是不可忽视的东西，因此对于许多需要或依赖的应用程序来说，不

浏览 4提问于2012-09-16得票数 19

1回答

处理远程:真正的链接和搜索机器人

、、、、

我经常使用remote: true链接。在大多数情况下，响应可以是js或html，因此搜索机器人不会造成问题但有些链接纯粹是js响应，没有HTML响应(这会导致异常和错误，导致大量监控工具、电子邮件、警报等) 我如何设置链接，使搜索机器人(谷歌，冰，其他爬虫)不会尝试它？或者-是否有一种类型的响应我应该返回，以便爬虫知道不要返回到那个url？

浏览 2提问于2014-12-03得票数 2

1回答

爬虫不读取我的javascript附加的meta标签

、、、

爬虫在我的头中没有通过脚本附加的meta标签： document.head.innerHTML = document.head.innerHTML + '<meta name="description" content="Description">' 此脚本位于head中，并附加了元素fine。我也尝试过JQuery。我想做这第一步，因为我很快就会使用JS从JSON文件中读取来添加动态数据。有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本？

浏览 1提问于2020-12-15得票数 1

3回答

如何在Django中处理网络爬虫？

、

由于网络爬虫在没有任何请求数据的情况下访问了我的网站的某些部分，我收到了很多发送到我的电子邮件中的错误，我想知道在Django中处理网络爬虫的最好方法是什么？当我遇到一个空的QueryDict时，我应该发出一个重定向吗？

浏览 0提问于2010-12-19得票数 2

回答已采纳

1回答

如何在Linux终端上运行包含javascript内容的html文件？

、、

我正在研究一个网站爬虫机器人，从中提取特定的信息。我至少需要在html文件上运行"on document ready“javascript函数，这样才能生成内容并获得它。我该怎么做呢？我看到一个叫"rhino“的命令，但它似乎只适用于.js文件，该文件是一个html文件。正如你可以猜到的，它里面包含html和JS。我们的计划是:下载html文件，编辑它们的"on document ready“js函数，获取输出，传递下一个，重复。

浏览 82提问于2019-02-11得票数 0

回答已采纳

1回答

当Javascript没有运行时，网站顶部的横幅会伤害你的SEO吗？

我正在开发一个web应用程序，它有一个很好的，基于AngularJS的前端，用于当javascript启用时，然后返回到一个完全的Javascript免费，100%服务器呈现的版本，当它不是的时候，有一个相同的URL模式。我所做的事情之一就是在页面的顶部有一个横幅，上面写着：这里的网站名称在启用Javascript的现代浏览器上工作得最好。然后，我使用角的一次性绑定功能来隐藏它。呃，一旦AngularJS开始，横幅就会消失。我不想使用noscript标记，因为我还会在旧浏览器上向bots/web爬虫和用户(基于用户代理，我有时不会呈现加载AngularJS和相关javascript的脚

浏览 0提问于2015-09-11得票数 3

回答已采纳

2回答

如何从dll调用向可视化界面提供反馈？

、、

架构概述：语言:使用类库执行爬虫任务的C# Windows项目我目前正在编写一个接口(UI)，用于“调试”我编写的爬虫(或一组爬虫器)。每个爬虫都是一个.dll。在接口中，我将调用.dlls，我不想等待它们结束任务(在内部爬行、解析和构建元素列表)来在接口上显示结果。问题：我是否可以以某种方式从.dll向界面发送反馈信息？也许是一个进度条，或者在读取元素之后，在界面上显示它们，然后再爬行下一个元素？我想要的是这样的东西在界面上实时显示(网格视图或其他东西)。 Finished Crawling College X Finished Crawling College Y Probl

浏览 2提问于2012-06-11得票数 0

回答已采纳

1回答

使用多线程改进网络爬虫/爬虫

、

我已经开始学习网络爬虫，在一篇文章的帮助下，我构建了下面这个简单的爬虫。它建议使用多线程来改进和提高网络爬虫的速度。我想知道是否有人可以帮助我学习更多关于多线程的知识，甚至可以将其应用到下面的爬虫中。此外，如果您有任何其他建议或改进，请随时分享这个爬虫。代码如下： error_reporting( E_ERROR ); define( "CRAWL_LIMIT_PER_DOMAIN", 50 ); $domains = array(); $urls = array(); function crawl( $url ) { global $domains,

浏览 3提问于2013-03-10得票数 0

回答已采纳

1回答

HTML流的SEO/爬行性影响

、、

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。最重要的是，爬虫会等到溪流结束吗？谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？ HTML可能会导致搜索引擎优化优化页面的快速TTFB。这可是件大事。

浏览 0提问于2021-07-27得票数 7

4回答

用C#解析和执行JS

、、

我有简单的爬虫爬行和搜索页面。但是现在我遇到了如何从页面执行和解析js链接的问题。有人知道如何解析和执行js页面吗？示例： some_url很容易用webhtmltoolktit解析。 JAVASCRIPT(1，7，0，2，7，9)是js链接，然后重定向到some_url2页面，然后我需要爬行这个页面。但问题是如何在C#中执行这个javascript以获得some_url2链接？

浏览 13提问于2011-01-20得票数 24

回答已采纳

3回答

网络爬虫的更新间隔是多少？

、

我目前正在做我自己的网络爬虫，我想知道… 网络爬虫再次访问相同站点的合适间隔是多少？你应该每天重温一次吗？每小时一次？我真的不know...has任何人在这件事上的一些经验？也许有人能给我指个方向？

浏览 0提问于2010-07-10得票数 1

回答已采纳

1回答

Python爬虫。解析和执行ajax

、、、

我有一个爬虫的基本结构。现在我在一些php驱动的网站上发布了它，它就像一个护身符。不过，现在我想让它从ajax内容构建数据表。目前，我正在使用Mechanize for PYTHON和perl来构建我的爬虫。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容？我知道有一种叫做Selenium的东西，一种真正的自动化浏览器。但这是我唯一的选择吗？

浏览 2提问于2012-01-26得票数 2

回答已采纳

1回答

Rails & Javascript:奇怪的404s....也许是个爬虫？

、

这可能是一个模糊的问题，但它看起来像是某个机器人正在抓取我的网站，而且做得非常糟糕。它似乎是从我的应用程序js文件中猜测It，并将其放入urls中，例如： Couldn't find Post with id=keypress 更奇怪的是，HTTP引用被列为application.js。以前有没有人经历过这种情况？有什么办法阻止这些爬虫吗？

浏览 3提问于2012-08-17得票数 0

1回答

阻止Apify关闭我的express服务器

、、、

我有一个带有启动爬虫程序的POST端点的express服务器。当爬虫完成后，它会关闭整个服务器。我做错了什么吗？我怎样才能防止它的发生呢？这个项目看起来像这样： // server.js const express = require('express') const bodyParser = require('body-parser') const startSearch = require('./crawler.js') const app = express() app.use(bodyParser.json()) app.pos

浏览 16提问于2020-01-13得票数 0