爬虫爬取js网页_爬虫如何爬取js_爬虫爬取js文件 - 腾讯云开发者社区

java、web-crawler、nutch

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的)，最低限度地配置它并启动它，没有任何花哨的东西。有没有这方面的例子，或者我应该看看的资源？

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

search、sharepoint-2010

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。

浏览 1提问于2010-06-15得票数 1

1回答

Crawler4j计算页面深度

grails、groovy、depth、crawler4j

我正在用groovy & grails和mongodb开发一个网络爬虫，有没有办法用crawler4j计算页面的深度？我知道我可以限制到我想要爬取的深度，但还没有遇到任何建议如何计算页面深度的东西。

浏览 2提问于2014-06-26得票数 0

1回答

如何抓取受登录保护的站点或页面？

web-crawler、apache-storm、stormcrawler

我想抓取一个网站，这是必要的访问，以查看网页。我可以爬客网页，但如何抓取登录保护网页？如果有人共享一些步骤来配置或跳过身份验证机制来使用storm爬虫爬行页面，那将是非常棒的。先谢谢你。

浏览 5提问于2021-04-12得票数 0

回答已采纳

1回答

在if语句下索引链接？

php、seo、web-crawler、googlebot

索引Google会有任何链接在if语句下吗？ <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll？

浏览 0提问于2013-01-06得票数 0

2回答

大神有没有研究过美团的_token生成方法？

python、爬虫、数据分析

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2168提问于2018-09-12

2回答

Facebook粉丝从何而来？

facebook、facebook-page

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。

浏览 2提问于2011-05-19得票数 0

回答已采纳

1回答

使用http 405代码的页的风暴爬虫解决方案

web-crawler、stormcrawler

我想爬一个像一样的网页。www.notebooksbilliger.de/lenovo+320+15abr+80xs009bge/incrpc/topprod with status 405 in msec 53 这页似乎有爬虫保护是否还可以使用风暴爬虫和selenium一起爬行呢？

浏览 1提问于2018-04-09得票数 1

回答已采纳

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

wget

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

1回答

如何用python爬取数据并保存到excel？

python

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。

浏览 291提问于2021-01-09

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

java、multithreading、web-crawler

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。

浏览 1提问于2012-05-02得票数 0

回答已采纳

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

java、database、json、screen-scraping、data-mining

我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周)，以包括新开的酒吧。

浏览 0提问于2011-01-18得票数 1

2回答

请问一下页面上的图片，怎样获取它的URL呢？

php、云直播

浏览 303提问于2020-10-26

1回答

Web爬虫更新策略

web-crawler、scrapy

这里的问题是，我不仅要爬这个网站一次。我还想让我的爬行长时间运行，并抓取更新的资源。因此，我想知道，有什么好的策略，一个网页爬虫得到更新的网页？爬虫获取URL，并更新URL存储库中的某些信息，如页面内容、获取时间和内容是否已更改。

浏览 1提问于2010-04-05得票数 4

2回答

使用机械化来检索网站的所有链接

ruby、recursion、mechanize、web-crawler

如何使用Mechanize库查找网站上的所有链接？

浏览 0提问于2012-07-23得票数 2

回答已采纳

1回答

如何在Google上爬行

java、proxy、web-crawler、jsoup、search-engine

我的计划是我的网络爬虫 google.com/robots.txtDisallow: /search我的新计划我的网络爬虫会在谷歌、必应或雅虎上搜索关键词(每天最多搜索2-3次

浏览 3提问于2017-09-15得票数 0

2回答

获取IIS工作进程崩溃转储

c#、asp.net、multithreading、debugging、iis

我已经将问题缩小到我的HTTP爬虫，这是一个多线程的野兽，当被请求时，它会爬取站点以获取有用的信息。在我启动爬虫程序并重新部署应用程序之后，IIS工作进程将崩溃(弹出一条崩溃消息)并继续重新加载应用程序域，而不是正常卸载appDomain并重新加载。

浏览 0提问于2008-09-10得票数 9

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

c#、asp.net、events

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。

浏览 0提问于2010-01-22得票数 0

1回答

如何使条件循环单击节点上的恶梦事件？

javascript、node.js、web-crawler、nightmare

我想爬的网页有“加载更多”按钮。当我点击这个按钮时，会有更多的帖子像其他网页一样被加载。问题是-这个页面上的帖子数量可能会改变。因此，我的爬虫应用程序不知道多少次按“加载更多”按钮。

浏览 2提问于2017-06-19得票数 0

回答已采纳

0回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

tcp/ip

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 87提问于2021-09-28

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Nutch API建议

Sharepoint 2010搜索不会为自定义字段建立索引

Crawler4j计算页面深度

如何抓取受登录保护的站点或页面？

在if语句下索引链接？

大神有没有研究过美团的_token生成方法？

Facebook粉丝从何而来？

使用http 405代码的页的风暴爬虫解决方案

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

如何用python爬取数据并保存到excel？

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

请问一下页面上的图片，怎样获取它的URL呢？

Web爬虫更新策略

使用机械化来检索网站的所有链接

如何在Google上爬行

获取IIS工作进程崩溃转储

关闭浏览器或单击中止时，脚本不会停止

如何使条件循环单击节点上的恶梦事件？

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐