js爬虫原理_网络爬虫原理_webdriver js 爬虫 - 腾讯云开发者社区

、、、

我想开发一个WebSpider守护进程(PHP/C/C++)你知道关于如何开发高性能网络爬虫的好参考资料吗？

浏览 0提问于2011-10-17得票数 0

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

我只是在想。有没有一种方法只对爬虫隐藏页面的特定部分？我知道我可以设置"display: none“，然后用JS将其显示给用户。在过去，它可以工作，但现在爬虫(/will )更聪明(尤其是谷歌的爬虫)，可以阅读JS。那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。 PS #1:我只是在想，我没有理由这么做(现在？) PS #2:也许AJAX是可能的？但没有理由不让智能js阅读爬虫来隐藏它。谢谢大家，麦芽酒

浏览 6提问于2014-10-16得票数 0

回答已采纳

1回答

如何在node.js中发出https请求

、、

我要做个爬虫。对于http请求，我曾经这样做过。 var http=require('http'); var options={ host:'http://www.example.com', path:'/foo/example' }; callback=function(response){ var str=''; response.on('data',function(chunk){ str+=chunk; }); response.on('end', funct

浏览 2提问于2015-01-18得票数 1

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2提问于2013-03-18得票数 3

1回答

Symfony DomCrawler如何单击执行js代码的链接

、、、、

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？我试着这样做，但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt7 DJuf"]')->link();

浏览 82提问于2021-02-03得票数 0

1回答

如何获取页面内容

、、

我正在尝试使最近的新闻，如我的网站的功能。为此，我做了一个网络爬虫，到目前为止，我可以通过执行以下操作从页面收集链接 $dom = new domDocument; @$dom->loadHTML(file_get_contents($url)); $dom->preserveWhiteSpaces = false; $linksToStore = $dom->getElementsByTagName('a'); foreach($linksToStore as $tag){ $links[$tag->getAttribute('hre

浏览 1提问于2012-11-25得票数 0

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

、

不会为爬虫加载google-analitics js会导致问题吗？目前，我想停止加载一些外部js时，爬虫探索我的网站。对我来说，最简单的方法就是不加载google分析。这对SEO不好吗？我找不到关于这件事的多少信息。

浏览 0提问于2017-09-19得票数 1

1回答

爬行器对象与爬行器和管道对象之间有什么关系？

、

我在和刮伤一起工作。我有一种胡椒碱，它的开头是： class DynamicSQLlitePipeline(object): @classmethod def from_crawler(cls, crawler): # Here, you get whatever value was passed through the "table" parameter table = getattr(crawler.spider, "table") return cls(table) de

浏览 2提问于2017-12-25得票数 2

回答已采纳

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。请帮帮我

浏览 2提问于2014-09-28得票数 1

2回答

为什么我不能摆脱Facebook的用户代理？

、、、

我想使用一些permalink片段，允许用户与它的Facebook图片、url、描述等共享链接(url.com/ users /songtitle)(它将用户重定向到url.com/#/artist/songtitle)。因此，我决定向Facebook用户代理展示OG，并将其与重定向器分开。但是，当我使用并尝试获取时，问题就出现了。爬虫没有被我的用户代理分离器捕获。我正在使用这个代码来检测Facebook爬虫。有办法解决这个问题吗？ strpos($_SERVER["HTTP_USER_AGENT"], "facebookexternalhit/&#

浏览 1提问于2018-04-18得票数 0

回答已采纳

1回答

在nodejs/express中如何允许爬虫使用站点地图

、、

在nodejs/express中，如何允许爬虫使用站点地图？下面的代码是我的应用程序流的一部分，我应该把我的站点地图文件夹/文件放在哪里？以及如何允许爬虫？现在访问domain/sitemap/sitemap.xml节目找不到。 project/app/app.js app.js require('./RouteHandler.js')(app, express); RouteHandler.js ... var routesIndex = require('./routes/Index/Base.js'); app.use('/', rout

浏览 2提问于2015-09-06得票数 1

回答已采纳

1回答

HTTP：“差异:用户-代理”标题的单一页面反应应用程序，为机器人进行SSR？

、、、、

我有反应网络应用程序。这是一个单一的页面应用程序，所以基本上有一个“空”HTML文件和一个JS包来完成这一切。但为了提高SEO的能力，我正在为我的服务器上的机器人爬虫做SSR。我还区分了“桌面”爬虫和“移动”爬虫，并为每个爬虫提供了不同的布局。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的： REGULAR USER => GETS "EMPTY" HTML + JS BUNDLE ROBOT DESKTOP => GETS RENDERED HTML WITH DESKTOP LAYOUT ROBOT MOBILE =>

浏览 0提问于2021-01-07得票数 0

回答已采纳

1回答

爬虫不读取我的javascript附加的meta标签

、、、

爬虫在我的头中没有通过脚本附加的meta标签： document.head.innerHTML = document.head.innerHTML + '<meta name="description" content="Description">' 此脚本位于head中，并附加了元素fine。我也尝试过JQuery。我想做这第一步，因为我很快就会使用JS从JSON文件中读取来添加动态数据。有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本？

浏览 1提问于2020-12-15得票数 1

4回答

用php编写客户端重定向服务器端

、、、

我正在寻找一个客户端重定向到另一个领域的PHP。我不想做301 - 302 - 307等重定向的原因是因为我希望页面向爬虫程序发送一个200HTTP OK响应。我通常使用混淆的JavaScript在静态use主机(如S3 )上执行此操作，但是，我意识到爬虫程序可能会拾取JS，因为它是客户端。我使用的未被阻塞的JS代码示例； window.location.href = "http://yourURL.com"; 然而，爬虫很难找到PHP，所以我想做一个类似的重定向，但用的是PHP。如果有人能分享他或她的意见，这将是最好的方式。提前感谢！

浏览 0提问于2015-07-29得票数 0

1回答

禁用js时，在reactjs中设置动态元标记

、

我遇到了一些问题谷歌爬虫和元标签，我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效，但谷歌搜索似乎找不到我添加的标签。我知道爬虫在没有启用js的情况下运行网站，在测试时我可以看到，当js被禁用时，头盔不会呈现标签(启用时可以正常工作)。当js被禁用时，反作用头盔不会渲染标签，这可能是谷歌搜索中描述和标题错误的原因。当js被禁用时，找到一种呈现适当标记的方法可能会解决这个问题。知道怎么做吗？谢谢你的帮助。

浏览 0提问于2020-12-28得票数 0

回答已采纳

1回答

Googlebot执行谷歌标签管理器吗？

、、、

我想了解Googlebot (和其他爬虫)如何爬行我的网站。具体而言，它是否传递一个document.referrer，如果它维护localStorage密钥，那么我通过Google实现了一个脚本，该脚本检测这些爬虫并将数据记录到Logstash。这是我用来检测爬虫用户代理的条件(为爬虫返回true )： function() { if(navigator.userAgent.indexOf('robot de Google') < 0 && navigator.userAgent.indexOf('Googlebot') <

浏览 0提问于2018-02-09得票数 4

回答已采纳

1回答

处理远程:真正的链接和搜索机器人

、、、、

我经常使用remote: true链接。在大多数情况下，响应可以是js或html，因此搜索机器人不会造成问题但有些链接纯粹是js响应，没有HTML响应(这会导致异常和错误，导致大量监控工具、电子邮件、警报等) 我如何设置链接，使搜索机器人(谷歌，冰，其他爬虫)不会尝试它？或者-是否有一种类型的响应我应该返回，以便爬虫知道不要返回到那个url？

浏览 2提问于2014-12-03得票数 2

1回答

从MVC C#应用程序中嵌套的角应用程序抓取内容

、、、

UPDATE：任务是通过发送请求来解决的，仍然是通过cURL使用AJAX cURL与.NET通信。cURL是在浏览器中使用cURL查找的。所以现在我有： curl_setopt($ch, CURLOPT_URL, "http://www.example.com/API_method/parameters"); 端更新我需要在基于Zend2.0PHP的爬虫应用程序中使用cURL库获取内容。内容在棱角页面中。角应用程序嵌套在MVC C# .NET应用程序中，工作在IIS服务器上。我有： curl_setopt($ch, CURLOPT_URL, "http://w

浏览 0提问于2019-05-08得票数 2

1回答

如何防止Solr添加页眉和页脚？

、、

我有一个抓取网站内容的网络爬虫()，我还添加了索引数据到solr的代码。我的要求是避免将网站的页眉、页脚和导航窗格添加到solr中进行索引。有没有办法做到这一点？任何帮助都会感激不尽。谢谢，Anu

浏览 0提问于2013-04-16得票数 0

回答已采纳

0回答

如何在Azure函数中保存HTML中的PDF

、、、

我正在开发一个应用程序，这将有一些网站的网络爬虫。应用程序将通过URL触发Azure函数，爬虫将从该URL开始工作。到目前为止，一切顺利，但是，我们必须保存一些爬虫通过该站点的证据。我们正在考虑用爬虫经过的屏幕保存一个PDF文件，但是，由于Azure函数没有GDI+，它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有JS和CSS依赖项)保存到PDF文件中。我想要一些库，它可以与Azure函数一起工作，以制作一些URL (或HTML字符串)的屏幕截图，并保存为PDF。谢谢。

浏览 7提问于2018-07-16得票数 0

回答已采纳

2回答

颤振网络: SPA:开放图形:动态分配og:图像元标记

、、、、

试图创建动态og:图像标签，供爬虫捕捉适当的缩略图。我有一个JS脚本，生成适当的og:image url，但是爬虫在搜索时似乎没有运行任何JS。有更好的方法吗？目前： <head> <script> const queryString = window.location.href; const urlParams = new URLSearchParams(queryString); const uid = urlParams.get('uid') const pid = urlParams.get('pid

浏览 0提问于2020-08-11得票数 3

回答已采纳

3回答

如何使用Scrapy在循环中抓取相同的url

、

所需内容位于具有静态URL的同一页面上。我创建了一个爬虫，它抓取这个页面并将项目存储在CSV中。但它只执行一次，然后完成爬行过程。但我需要不断地重复这个操作。我该怎么做呢？ Scrapy 0.12 Python 2.5

浏览 1提问于2011-06-23得票数 2

回答已采纳

1回答

在cronjob上优化爬虫脚本

、、、、

我在一个MySQL表中有大约6600万个域，我需要在所有域上运行爬虫，并在爬虫完成时更新行计数=1。爬虫脚本在php中，使用php爬虫库，这里是脚本。 set_time_limit(10000); try{ $strWebURL = $_POST['url']; $crawler = new MyCrawler(); $crawler->setURL($strWebURL); $crawler->addContentTy

浏览 2提问于2015-03-01得票数 1

1回答

Vue.js /Crawler无法跟踪v生成的链接

、、、

我有一个小网站，它使用Laravel和Vue.js来呈现一个列表。您可以查看它。看起来谷歌爬虫无法跟踪v-for生成的链接。 Google说：Not found: vergleichen/%7B%7B%20anbieter.slug%20%7D%7D和我认识的所有页面爬虫都无法抓取链接。我做错什么了？有解决办法吗？任何帮助都是非常感谢的♥ 更新 @Linus:您的假设是正确的，是我的刀片文件的内容，JS看起来如下： var suche = new Vue({ el: '#suchen', data: { search: ''

浏览 3提问于2016-04-16得票数 1

1回答

计算页面的视图数的最佳方法

、

实现站点上每页查看计数器的最佳方法是什么(就像Stackoverflow有问题页一样)？选项： AnalyticsCount 以编程方式从Google 中获取唯一的页面浏览次数(尽管这种方法对爬虫和机器人进行计数)，计数该页面的服务时间，并试图通过JS过滤出爬虫用户代理Ping服务器(然后过滤出来自同一个IP /用户的页面？)。

浏览 3提问于2010-12-23得票数 0

回答已采纳

1回答

React JS - Google爬虫无法抓取页面

、、、、

什么是最好的方法，我可以使一个在react JS中构建的web应用程序为谷歌爬虫的SEO目的而工作。我希望整个页面都能爬行。基本上，问题是当它在客户端呈现时，爬虫除了根div之外什么都看不到。应用程序托管在cloudfront存储桶上，并使用S3作为服务器。我读过关于Lambda@Edge的文章，但不确定它是否可以工作。帮助!

浏览 73提问于2021-07-01得票数 1

回答已采纳

1回答

C#爬虫程序无法加载动态内容

、、、

我正在使用Abot库来抓取网页。爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我试着让程序等待，希望动态的请求无论如何都会被发送，但这似乎不起作用。我希望加载整个页面，但只加载页面的底部。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0

6回答

使用node.js服务Backbone.js应用程序的内容，搜索搜索引擎优化爬虫

、、、

要么是我的google-fu让我失望了，要么就是还没有太多的人这么做。正如您所知，Backbone.js有一个弱点--它不能为页面爬虫(比如googlebot )呈现的html提供服务，因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎，以及JavaScript应用程序正在崛起这一令人警醒的事实，我预计有一天会发生这种情况)。我知道Google有一个hashbang的解决方案，但这只是一个糟糕的主意。另外，我正在使用PushState。这对我来说是一个极其重要的问题，我也希望对其他人也是如此。SEO是不可忽视的东西，因此对于许多需要或依赖的应用程序来说，不

浏览 4提问于2012-09-16得票数 19

1回答

针对firebase上托管的angular应用程序测试prerender.io中间件

、、

我有一个角度应用程序托管在火基上，并试图使用prerender.io来提高其搜索引擎优化。下面是我使用firebase函数部署的prerender.io中间件的一个非常简单的设置 import * as functions from 'firebase-functions'; import * as express from 'express'; const app = express(); app.use(require('prerender-node').set('prerenderToken', 'myToken

浏览 3提问于2018-11-06得票数 0

1回答

阻止Apify关闭我的express服务器

、、、

我有一个带有启动爬虫程序的POST端点的express服务器。当爬虫完成后，它会关闭整个服务器。我做错了什么吗？我怎样才能防止它的发生呢？这个项目看起来像这样： // server.js const express = require('express') const bodyParser = require('body-parser') const startSearch = require('./crawler.js') const app = express() app.use(bodyParser.json()) app.pos

浏览 16提问于2020-01-13得票数 0

1回答

用节点爬虫或简单爬虫进行NodeJS网络爬行

、

我是网络爬虫的新手，我需要一些关于这两个节点JS爬虫的提示。目标:我的目标是爬行一个网站，并且只获取该域内的内部(本地)URL。我对任何网页数据或刮擦都不感兴趣。只是网址。我的困惑是:当使用或时，它们是否必须在返回响应之前下载整个页面？有没有一种方法只找到一个URL，ping可能执行一些get请求，如果200个响应，只需继续下一个链接，而不必实际请求整个页面数据？是否还有其他NodeJS爬虫或蜘蛛可以只请求和记录URL？我关心的是使爬行尽可能轻量级。提前谢谢你。

浏览 0提问于2018-05-07得票数 2

回答已采纳

1回答

如何制作一个使用Javascript路由器的可索引网站？

、、、、

我一直在开发一个使用Backbone.js路由器的项目，所有数据都是通过restful请求由javascript加载的。我知道无法检测服务器端是否启用了Javascript，但是下面是我想让这个网站可索引的场景：我可以为sitemap.xml上的每个链接追加一个查询字符串，并可以放置一个<script>标记来检测是否启用了Javascript。服务器使用可索引数据呈现此页面，当用户访问此页面时，我可以手动初始化Backbone.js路由器。然而，问题是，我需要执行一个sql查询来在服务器端呈现可索引的数据，如果访问者不是机器人，它将导致额外的负载。当用户在某个地方共享该网站的

浏览 1提问于2013-01-06得票数 2

回答已采纳

2回答

使用node.js创建启用javascript的web爬虫

、

这不一定是一个爬虫，但我想它更容易理解说明的方式。给定HTML，浏览器加载/执行javascript (+应用样式) 我想在node.js中执行同样的任务。即。给定html，node.js将加载脚本(通过<script>标记或require()调用)并执行脚本(主要用于呈现)。 as的res.render似乎不接受html-string作为输入。如何用节点模拟浏览器的javascript呈现能力？假设node.js get与浏览器获得的地址相同的html？您可以想到一个web爬虫，它获取html并执行javascript来呈现页面。编辑虽然，与常规爬行任务有

浏览 2提问于2015-02-01得票数 2

1回答

如何保持网络爬虫运行？

、、

我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案，如目标是每10分钟进行一次“爬行”，所以我希望我的爬虫每10分钟从网站上获取数据。我知道我可以编写一个无限循环，例如： var keeRunning = true; while (keepRunning) { // fetch data and process it every 10 minutes } 如果我一直都有我的电脑，而且我在网站上，这会非常好的工作。然而，如果我关闭我的电脑，我可以想象它将不再工作了。那么，我应该考虑什么样的解决方案来让脚本一直运行，即使计算机被关闭了呢？

浏览 3提问于2015-05-23得票数 5

回答已采纳

1回答

如何在Heroku上连续运行和托管Node.js脚本？

、

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。所以我所有的爬行过程都消失了，我不得不重新审视。我如何宿主一个总是在Heroku上活动的Node.js脚本。如果不可能，我还能做些什么呢？

浏览 0提问于2021-01-21得票数 1

回答已采纳

2回答

facebook open graph crawler在rails操作中触发json响应

、、、、

由于某些原因，facebook爬虫在我的rails操作中触发了json响应。这导致该操作只返回对象的json表示，而不返回普通的html标记+打开的图形标记。我已经用rails 3.2.6对此进行了测试。我使用facebook的open graph调试器来查看抓取器正在看到的内容：。代码非常简单。想象一个对象的一个简单的"show“操作，例如一个用户。它以以下方式结束： respond_to do |format| format.js { render :json => @this.to_json } format.html end facebook爬虫正在触发form

浏览 0提问于2012-06-20得票数 9

回答已采纳

1回答

使用PHP脚本获取javascript隐藏的元素

、、

我在找的电子邮件地址参展商--退回1011份结果我编写了一个PHP爬虫来获取但是，我需要将“电子邮件通用公司电子邮件”与我的鼠标悬停，以显示电子邮件地址。我想通过我的爬虫自动完成它。我们可以在代码中看到js函数。 function fixEmail(mungedAddress) { Address = mungedAddress; var sAddress = decode(mungedAddress); $('#Email').attr('href', 'mailto:' + sAddress); } fun

浏览 4提问于2015-11-10得票数 1

回答已采纳

2回答

我们还应该关心ajax爬行规范吗？

、、、、

似乎是谷歌爬虫运行js。但是ajax爬行文档技术仍然可以在谷歌开发者的网站上使用。它们是否仍然有效，是否有必要加以遵循？

浏览 0提问于2015-11-28得票数 5

1回答

是否下载CSS、JS和图片？

、、、、

我正在学习写实验爬虫。我计划使用JSoup。例如，我的问题是，如果load facebook.com是JSoup，就会下载CSS、JS和图片，这些都是页面的一部分。简单地说，JSoup是否加载资产，如链接样式表、JS、图像等？

浏览 3提问于2015-11-19得票数 1

回答已采纳

1回答

天使会影响seo吗？

、、

我在开发一个有棱角JS的网站。现在我正忙着呢。突然有一个问题，如果这影响搜索引擎爬虫？寻找解决之道。

浏览 4提问于2014-10-16得票数 0

回答已采纳

1回答

如果我使用lxml而不是BeautifulSoup，我会更好地控制我的爬行器吗？

、、、

我正在学习制作蜘蛛和爬虫。这种蜘蛛是我的激情所在，我会在很长一段时间内一直这样做。对于解析，我正在考虑使用BeautifulSoup。但是有些人说，如果我使用lxml，我会有更多的控制。现在我知道的不多了。但我已经准备好努力工作，即使使用lxml比较困难。但如果这给了我完全的控制权，那么我已经准备好了。那么你的观点是什么呢？

浏览 0提问于2012-11-27得票数 1

回答已采纳

1回答

Next.js与CRA相比如何提高SEO？

、、

我是这个框架的新手，在通过互动学习之后，我有一些关于Next.js如何处理SEO问题的问题。 Next.js粗体功能是它在服务器端呈现React组件的能力，然而，据我所知，它只在服务器端呈现 first 请求，而其他请求将在客户端呈现，那么它如何在第一个假设为SEO friendly?Based、像google这样的爬虫器访问我们的站点、然后作为完整的HTML页面返回第一个响应，但是对于接收到的页面内的其他连续链接，它如何做得更好呢？它应该使用Javascript(这是SEO的主要致命弱点)执行客户端呈现，因此，除了第一个请求之外，CRA和Next.js没有什么区别，对吗？，如果前面的假设是正

浏览 3提问于2020-02-09得票数 3

回答已采纳

0回答

如何在c#中下载整个网站(Azure函数)

、、

我正在开发一种爬行器，我需要保存一些证据，证明压路机是他的工作。我正在寻找一种方法来下载所有的HTML，CSS和JS的发送网址，并创建相同的文件夹结构的目标网站。我将不得不使用Azure函数来执行爬虫。这个想法是将一个网站拆分，下载内容并保存在Azure Blob中。我找到了关于它的，但它只显示如何下载超文本标记语言，我需要创建爬虫看到的完全相同的东西(图像，CSS和处理过的JS)。我相信所有的绝对路径都会起作用，真正的问题是我将创建文件夹来保存文件的相对路径。有人能帮我吗？

浏览 9提问于2018-07-19得票数 1

回答已采纳

2回答

facebook爬虫需要ajax预渲染页面吗

、、

有了angular JS的网站，google就能够解析解释过的内容。但是与facebook共享一个链接，facebook爬虫是否也能够解析解释的内容，或者我们必须提供静态页面(例如prerender.io)？

浏览 39提问于2016-08-16得票数 0

3回答

用于web抓取的旋转代理

、、、、

我有一个python网络爬虫，我想在许多不同的代理服务器上分发下载请求，可能是运行squid (尽管我对其他选择是开放的)。例如，它可以以循环方式工作，其中request1转到proxy1，request2转到proxy2，并最终循环回来。你知道怎么设置这个吗？为了让它更难，我还希望能够动态地更改可用代理的列表，减少一些代理，并添加其他代理。如果重要，则会动态分配IP地址。谢谢:)

浏览 0提问于2009-12-20得票数 10

回答已采纳

1回答

Python-Twitter API

、

我想知道有没有办法不用他们的API就能抓取twitter？我试着使用他们的API，它很棒。不过，我想问一问，是否有其他选择？由于我正在处理的爬虫将被传递，我不希望我的令牌密钥在它们之间共享。我也不希望他们每个人都经历创建Dev帐户的麻烦，诸如此类。我用twitter API创建的爬虫能够检索很多很多tweet。而我创建的爬虫只能爬行10条左右，因为其他tweet会在html之外。我使用的是python 3.6 def spider(targetname, DOMAIN): for item in g_data: try: name = item.find_all(&

浏览 0提问于2017-06-02得票数 0

1回答

如何将python应用程序的两个组件解耦？

、、、、

我正在努力学习python开发，我一直在阅读关于体系结构模式和代码设计的主题，因为我想停止黑客攻击并真正开发。我正在实现一个see爬虫，我知道它有一个有问题的结构，正如您将要看到的那样，但是我不知道如何修复它。爬虫将返回用于在mongoDB实例中输入数据的操作列表。这是我的应用程序的总体结构： Spiders crawlers.py connections.py utils.py __init__.py crawlers.py实现了一个类型为Crawler的类，每个特定的爬虫都继承它。每个Crawler都有一个属性table_name和一个方法：crawl。在connections.py

浏览 1提问于2020-08-18得票数 0

回答已采纳

1回答

如何忽略phantomjs中的错误

、

我有一个web爬虫，我使用phantomjs来解析页面，我想得到html，但我总是在html代码之前在输出中得到这种类型的错误。 ReferenceError: Can't find variable: collapse_content_selector http://staticloads.com/js/toggle.js?v=2013.10.04:135 TypeError: 'undefined' is not a function (evaluating '$('[placeholder]').placeholderLabel()&

浏览 0提问于2013-10-19得票数 26

回答已采纳

3回答

下面的Python代码做了什么？这就像一个带括号的列表理解。

、

我正在研究用Python编写的网络爬虫，我偶然发现了一个非常简单的爬虫。但是，我不理解下面代码中突出显示的最后几行： import sys import re import urllib2 import urlparse tocrawl = [sys.argv[1]] crawled = [] keywordregex = re.compile('<meta\sname=["\']keywords["\']\scontent=["\'](.*?)["\']\s/>') linkregex = re.

浏览 2提问于2012-08-02得票数 2

回答已采纳