反爬虫网站如何爬取_爬虫如何爬取js_python爬虫爬取 - 腾讯云开发者社区

、、、

如何使用Mechanize库查找网站上的所有链接？我喜欢递归地解析内部链接，以便抓取一个网站的所有链接。

浏览 0提问于2012-07-23得票数 2

回答已采纳

1回答

Nutch API建议

、、

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的)，最低限度地配置它并启动它，没有任何花哨的东西。有没有这方面的例子，或者我应该看看的资源？在不需要索引和搜索的情况下，Nutch爬行模块的可用性

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

、、

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误： java.lang.outOfMemory :无法创建本机线程

浏览 1提问于2012-05-02得票数 0

回答已采纳

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

、、、、

我如何才能现实地实现我的目标？

浏览 0提问于2011-01-18得票数 1

2回答

Google Adsense是如何获得页面主题的？

我已经构建了一个web应用程序。问题是，广告中的产品几乎总是一样的，即使我的webapp是一个任务/项目管理工具，我猜有很多产品是用Google Adsense做营销的。我猜它可能使用了某种缓存。谢谢，汤姆

浏览 6提问于2010-10-04得票数 1

1回答

Crawler4j计算页面深度

、、、

我正在用groovy & grails和mongodb开发一个网络爬虫，有没有办法用crawler4j计算页面的深度？我知道我可以限制到我想要爬取的深度，但还没有遇到任何建议如何计算页面深度的东西。

浏览 2提问于2014-06-26得票数 0

1回答

分布式系统中的任务分配

、

我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

、

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。

浏览 1提问于2010-06-15得票数 1

1回答

php如何禁止从url直接访问网站页面？

、

有些人会通过url直接访问文章页面进行抄袭，所以想禁止通过url直接访问网站的行为。再次深表感谢！

浏览 276提问于2023-02-24

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

我想在其中爬行一些网站，并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。以下是我的一些问题：2) Solr有什么用？4) Solr如何与Hadoop通信？我真的真的被这个卡住了。

浏览 2提问于2012-09-06得票数 3

1回答

在if语句下索引链接？

、、、

索引Google会有任何链接在if语句下吗？ <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll？

浏览 0提问于2013-01-06得票数 0

2回答

大神有没有研究过美团的_token生成方法？

、、

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2213提问于2018-09-12

3回答

网络爬虫的更新间隔是多少？

、

我目前正在做我自己的网络爬虫，我想知道…你应该每天重温一次吗？每小时一次？我真的不know...has任何人在这件事上的一些经验？

浏览 0提问于2010-07-10得票数 1

回答已采纳

1回答

Web抓取HTML与浏览器结果不同

、、、

对于我的项目，我需要谷歌搜索结果。我使用的是python请求和BeautifulSoup。我得到了结果，但它们与我在浏览器上看到的结果不同。我需要显示在我的浏览器上的确切内容。我也尝试过urllib。但它也不同于web结果。有人能帮我解决这个问题吗？import bs4 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/2010010

浏览 29提问于2019-06-02得票数 0

1回答

谷歌搜索控制台上受robots.txt错误限制的URL

我正在子域上创建一个wordpress站点，并且我面临着这样的错误:站点地图包含被robots.txt阻止的urls。在google搜索控制台上

浏览 2提问于2018-05-20得票数 0

2回答

Facebook粉丝从何而来？

、

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。

浏览 2提问于2011-05-19得票数 0

回答已采纳

1回答

单个IP请求的精确限制

、、、

我正在开发一个应用程序，它从所有字母中获取前20个页面。基本上，在这个时候没有限制的问题。但是我需要知道每秒从一个IP地址发出的请求的确切数量是多少？

浏览 1提问于2011-11-16得票数 0

回答已采纳

1回答

如何抓取受登录保护的站点或页面？

、、

我想抓取一个网站，这是必要的访问，以查看网页。我可以爬客网页，但如何抓取登录保护网页？如果有人共享一些步骤来配置或跳过身份验证机制来使用storm爬虫爬行页面，那将是非常棒的。先谢谢你。

浏览 5提问于2021-04-12得票数 0

回答已采纳

1回答

不允许所有的用户代理，除了一个用户代理？

如何不允许除一个用户代理之外的所有用户代理？例如，所有用户代理都不允许，但只允许Googlebot？

浏览 0提问于2015-11-09得票数 0

回答已采纳

4回答

降低网站爬行速度

、、、

有没有办法迫使爬虫放慢对网站的爬行速度？可以放在headers或robots.txt中的内容吗？我想我记得我读过一些关于这是可能的东西，但现在找不到任何东西。

浏览 2提问于2010-01-30得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用机械化来检索网站的所有链接

Nutch API建议

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

Google Adsense是如何获得页面主题的？

Crawler4j计算页面深度

分布式系统中的任务分配

Sharepoint 2010搜索不会为自定义字段建立索引

php如何禁止从url直接访问网站页面？

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

在if语句下索引链接？

大神有没有研究过美团的_token生成方法？

网络爬虫的更新间隔是多少？

Web抓取HTML与浏览器结果不同

谷歌搜索控制台上受robots.txt错误限制的URL

Facebook粉丝从何而来？

单个IP请求的精确限制

如何抓取受登录保护的站点或页面？

不允许所有的用户代理，除了一个用户代理？

降低网站爬行速度

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐