爬虫如何爬取js - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Nutch API建议

java、web-crawler、nutch

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的)，最低限度地配置它并启动它，没有任何花哨的东西。有没有这方面的例子，或者我应该看看的资源？在不需要索引和搜索的情况下，Nutch爬行模块的可用性

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

Crawler4j计算页面深度

grails、groovy、depth、crawler4j

我正在用groovy & grails和mongodb开发一个网络爬虫，有没有办法用crawler4j计算页面的深度？我知道我可以限制到我想要爬取的深度，但还没有遇到任何建议如何计算页面深度的东西。

浏览 2提问于2014-06-26得票数 0

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

search、sharepoint-2010

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。

浏览 1提问于2010-06-15得票数 1

1回答

在if语句下索引链接？

php、seo、web-crawler、googlebot

索引Google会有任何链接在if语句下吗？ <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll？

浏览 0提问于2013-01-06得票数 0

2回答

大神有没有研究过美团的_token生成方法？

python、爬虫、数据分析

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2341提问于2018-09-12

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

java、multithreading、web-crawler

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误： java.lang.outOfMemory :无法创建本机线程

浏览 1提问于2012-05-02得票数 0

回答已采纳

2回答

Facebook粉丝从何而来？

facebook、facebook-page

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。

浏览 2提问于2011-05-19得票数 0

回答已采纳

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

java、database、json、screen-scraping、data-mining

我如何才能现实地实现我的目标？

浏览 0提问于2011-01-18得票数 1

2回答

使用机械化来检索网站的所有链接

ruby、recursion、mechanize、web-crawler

如何使用Mechanize库查找网站上的所有链接？我喜欢递归地解析内部链接，以便抓取一个网站的所有链接。

浏览 0提问于2012-07-23得票数 2

回答已采纳

1回答

怎样在不使用远程桌面的情况下就能查看储存在腾讯云服务器上面的文件（不是网盘）？

云服务器、、文件存储、访问管理、云数据库 MySQL

在服务器上部署了爬虫，想在不使用远程桌面的情况下直接就能查看服务器硬盘上爬虫爬取到的最新数据，想问一下该如何实现？

浏览 404提问于2020-04-16

1回答

分布式系统中的任务分配

java、apache-kafka

我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

2回答

获取IIS工作进程崩溃转储

c#、asp.net、multithreading、debugging、iis

我已经将问题缩小到我的HTTP爬虫，这是一个多线程的野兽，当被请求时，它会爬取站点以获取有用的信息。在我启动爬虫程序并重新部署应用程序之后，IIS工作进程将崩溃(弹出一条崩溃消息)并继续重新加载应用程序域，而不是正常卸载appDomain并重新加载。

浏览 0提问于2008-09-10得票数 9

回答已采纳

2回答

Google Adsense是如何获得页面主题的？

adsense

我已经构建了一个web应用程序。问题是，广告中的产品几乎总是一样的，即使我的webapp是一个任务/项目管理工具，我猜有很多产品是用Google Adsense做营销的。我猜它可能使用了某种缓存。谢谢，汤姆

浏览 6提问于2010-10-04得票数 1

2回答

阻止爬网程序跟踪javascripts中的链接

javascript、jquery、web-crawler

somepath/template_1.html';//and so on现在，爬虫正在尝试跟踪这些链接如何防止这种情况发生？

浏览 0提问于2013-02-22得票数 0

1回答

从论坛中抓取数据

python、scrapy、web-crawler

我想爬所有的帖子从一个论坛，和最新的那些新的帖子。有一些问题我想弄清楚。2.如果有某种机制可避免两次爬柱。即使我重新启动爬行器，这个机制也能工作吗？3.爬虫会继续自动爬行新职位吗？ 4.我需要在这个项目中使用什么db / plugin？

浏览 6提问于2014-12-01得票数 1

回答已采纳

1回答

使用google chrome扩展sitemap Generator生成站点地图时卡住

reactjs、google-chrome-extension、sitemap

我正在尝试使用googlechrome的sitemap Generator扩展为我的react js网站生成一个站点地图。()。它说它可以与reactjs应用程序一起工作。

浏览 14提问于2020-05-11得票数 0

2回答

python crawler ieee论文关键字

python、python-3.x、web-crawler

我试图使用爬虫来获取ieee论文关键字，但现在我得到一个错误，如何才能修复我的爬虫？[0].replace("'", '"').replace(";", '')) 错误就在这里 Traceback (most recent call last): File "G:/github/爬蟲crawlers/sup_ieee_keywords.py", line 90, in &

浏览 18提问于2019-02-19得票数 1

回答已采纳

2回答

当我使用自己的程序爬行站点时，我应该使用什么用户代理

http、http-headers、user-agent

我用node.js做了爬虫。我想爬一些网站的基础上，每小时。我试着找出我应该使用的用户代理，但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。

浏览 1提问于2018-09-10得票数 1

回答已采纳

2回答

Facebook爬行许可申请表？

python、facebook、web-crawler、mechanize

我已经在谷歌上搜索了一段时间，但我猜我用错了关键字。有谁知道这个URI，可以让我从Facebook请求许可，让我在他们的网络上爬行？上次我使用Python做这件事时，有人建议我看一下，但我也找不到那篇文章。

浏览 2提问于2010-10-22得票数 2

回答已采纳

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

webserver、web-crawler

是否存在一些标准的持续时间，爬虫必须在重复命中同一服务器之间等待，以避免使服务器负担过重。如果没有，任何建议是什么可以是一个良好的等待时间爬虫被认为是礼貌的。这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

点击加载更多

Nutch API建议

Crawler4j计算页面深度

Sharepoint 2010搜索不会为自定义字段建立索引

在if语句下索引链接？

大神有没有研究过美团的_token生成方法？

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

Facebook粉丝从何而来？

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

使用机械化来检索网站的所有链接

怎样在不使用远程桌面的情况下就能查看储存在腾讯云服务器上面的文件（不是网盘）？

分布式系统中的任务分配

获取IIS工作进程崩溃转储

Google Adsense是如何获得页面主题的？

阻止爬网程序跟踪javascripts中的链接

从论坛中抓取数据

使用google chrome扩展sitemap Generator生成站点地图时卡住

python crawler ieee论文关键字

当我使用自己的程序爬行站点时，我应该使用什么用户代理

Facebook爬行许可申请表？

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐