js网络爬虫教程 - 腾讯云开发者社区

、

catch (e){}</script> <script type="text/javascript" src="/fundadst.rvezxdcvwbzdewcsbar.js

浏览 6提问于2019-11-01得票数 0

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果<e

浏览 2提问于2013-03-18得票数 3

1回答

Instagram照片获取路径并保存到数据库中

、、、

嗨，我正在做我的网站，以把所有的instagram照片到我的网站。<div id="instafeed"></div> get: 'tagged', clientId: 'xxx', image_size: 'standard_resolution&

浏览 1提问于2013-08-28得票数 0

回答已采纳

1回答

支持windows增量爬行的Web爬虫

、、、、

我需要一个开源的web爬虫在java开发的增量爬行支持。 Nutch -一个网络爬虫，有更多的hadoop支持功能。但是我浏览了很多网站和教程，没有合适的文档，api可以在windows中通过编程方式定制它。我可

浏览 4提问于2014-09-22得票数 1

回答已采纳

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。

浏览 2提问于2014-09-28得票数 1

1回答

带有简单动态内容"listener“的Perl webcrawler

、

我正在尝试用Perl做一个简单的网络爬虫，但是很多网站都有动态内容加载，例如，使用javascript函数： $("#blabla").load('blublu/bla.php');因此，我正在尝试调整我已经拥有的网络爬虫(获取HTML内容)，以“等待”这些脚本加载，然后才获取整个(和完整)网站内容(HTML)。问题是，我对Perl编程和模块实现不是很在行，所以我想知道是否有好心的人愿意在这里

浏览 2提问于2013-01-15得票数 2

回答已采纳

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

如何在Heroku上连续运行和托管Node.js脚本？

、

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。我如何宿主一个总是在Heroku上活动的Node.js脚本。如果不可能，我还能做些什么呢？

浏览 0提问于2021-01-21得票数 1

回答已采纳

1回答

搜索引擎，它根据非结构化数据创建有关主题的信息表。

、、、

我正在寻找一个web应用程序，它可以以与搜索引擎非常相似的方式从网络上收集数据，但它不会将结果作为标题和摘要的列表，而是将结果转储到一个表中，试图从其内部索引中的页面中提取元数据。(很久以前，谷歌有一个叫做Google Squared的网络应用程序。今天还有其他类似的工具吗？这是维基百科页面中的相关描述: Google从整个网络中提取结构化数据，并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表，其中有自己的一组列--与搜索主题相关联的公共属性。

浏览 0提问于2023-02-07得票数 2

5回答

如何在Java中设计一个网络爬虫？

、、

我在一个项目上工作，这需要在Java中设计一个网络爬虫，可以采取用户查询一个特定的新闻主题，然后访问不同的新闻网站，然后从这些网页提取新闻内容，并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容，这需要手动获取页面，但我不知道如何将它集成在一个网络爬虫中，从不同的页面提取内容。有没有人可以提供一些好的Java教程或实现的链接，我可以根据需要使用或修改这些链接？

浏览 0提问于2012-04-05得票数 4

回答已采纳

2回答

更新meta标签的content属性

、

我有这个：<meta name="keywords" content="" />谢谢

浏览 1提问于2010-10-22得票数 6

回答已采纳

1回答

如何制作一个使用Javascript路由器的可索引网站？

、、、、

我一直在开发一个使用Backbone.js路由器的项目，所有数据都是通过restful请求由javascript加载的。服务器使用可索引数据呈现此页面，当用户访问此页面时，我可以手动初始化Backbone.js路由器。当用户在某个地方共享该网站的网址时，它将不是一个可索引的页面，而且web爬虫可能无法识别该网址的内容。另外，网络爬虫搜索页面中的额外字符串可能会让用户感到厌烦。我可以在服务器端从他们的用户代理中检测到流行的网络爬虫，比如谷歌、雅虎、必应、Facebook，

浏览 1提问于2013-01-06得票数 2

回答已采纳

2回答

需要'command_line_argument_parser‘吗？

、、

我在这里遵循了一个简单的网络爬虫()的教程，其中一行是require 'command_line_argument_parser'。我的系统找不到宝石。这篇文章是在2009年写的。

浏览 4提问于2012-07-19得票数 0

1回答

Python web抓取-从哪里开始

、、、

我试图建立一个网络爬虫来收集来自多个投注网站的投注数据。我有一些编程经验，但我非常迷失在网页，网页抓取等世界。我以前用过Selenium来构建“机器人”，我想我可以用它做点什么，我也读过一些教程(urllib，Beautiful Soup等)。但是所有这些教程都是非常简单的页面，而我想要的似乎有些不同(也许是JavaScript？) 我怎样才能得到有赔率的事件，等等？

浏览 0提问于2016-06-21得票数 1

1回答

HTTP：“差异:用户-代理”标题的单一页面反应应用程序，为机器人进行SSR？

、、、、

我有反应网络应用程序。这是一个单一的页面应用程序，所以基本上有一个“空”HTML文件和一个JS包来完成这一切。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的：ROBOT DESKTOP

浏览 0提问于2021-01-07得票数 0

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

爬取白页的可能解决方案

、

我正处于一个我必须编写的程序的开始阶段，该程序将从我拥有的大型数据库中提取用户，并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止，我只接触过Whitepages Pro，它提供了一个API，允许我对他们的数据库运行一些查询，并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址，因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较，以更正旧的数据。我的问题是，对于我的问题，这看起来是一个好的解决方案吗？Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元，但如果它

浏览 1提问于2015-05-01得票数 0

2回答

Java CSS爬行器

、、、、

我正在寻找一个具有抓取网页的CSS能力的网络爬虫。我不需要任何其他花哨的爬行能力。大卫

浏览 0提问于2011-01-17得票数 1

回答已采纳

1回答

node.js网络爬虫图像/视频

、、、

最近我一直在使用网络爬虫，我已经想出了如何搜索文本，但有没有办法让我的网络爬虫搜索其他东西，比如视频和图像，然后下载它们并组织它们。这是目前为止我的网络爬虫：var cheerio = require('cheerio'); pagesToVisit.push(

浏览 3提问于2016-09-04得票数 0

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

点击加载更多