如何利用爬虫技术爬取网站内信息 - 腾讯云开发者社区

web-services、aggregation、web-crawler、nutch

比方说，我想要从许多来源(可以是旅行、技术或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢？像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗？你有推荐的其他东西吗？例如，Techmeme.c

浏览 2提问于2009-05-29得票数 14

1回答

谷歌搜索控制台上受robots.txt错误限制的URL

google-search-console

我正在子域上创建一个wordpress站点，并且我面临着这样的错误:站点地图包含被robots.txt阻止的urls。在google搜索控制台上

浏览 2提问于2018-05-20得票数 0

9回答

如何防止所有爬虫，除了好的(谷歌，必应，雅虎)访问网站内容？

web-crawler

但我不希望我的对手网站使用抓取服务来窃取我的网站内容。我该怎么办？

浏览 6提问于2010-03-09得票数 2

1回答

Facebook评论动态生成的页面无法访问

facebook、comments

我在我的站点中使用，在多个动态生成页面上。我为此实现了一切，包括meta标签和配置facebook应用程序。请帮帮忙。

浏览 0提问于2013-01-06得票数 0

回答已采纳

2回答

Google Adsense是如何获得页面主题的？

adsense

我已经构建了一个web应用程序。问题是，广告中的产品几乎总是一样的，即使我的webapp是一个任务/项目管理工具，我猜有很多产品是用Google Adsense做营销的。我猜它可能使用了某种缓存。谢谢，汤姆

浏览 6提问于2010-10-04得票数 1

2回答

如何让crawler4j更快地从页面下载所有链接？

java、crawler4j

我所做的是：一定有更快的方法，当我访问页面时，我可以直接下载链接？谢谢！

浏览 3提问于2012-01-10得票数 6

回答已采纳

1回答

Android应用程序内容索引

android、android-app-indexing、google-app-indexing、firebase-app-indexing

另一个问题是:文档中说：“通常情况下，你可以通过使用robots.txt文件来控制谷歌机器人如何在你的网站上爬行公开可访问的robots.txt。(在页的底部) Googlebot如何在幕后索引页面，如果它只是通过站点及其关联来启动我的应用程序并在幕后做一些事情，为什么它试图转到blabla/api (我的应用程序实现所需的mb)？

浏览 14提问于2016-08-09得票数 1

6回答

什么是好的Web爬虫工具

web-crawler、robot

我需要索引一大堆网页，有哪些好的网络爬虫工具？我最好找的是.NET能跟我交流的东西，但这不是什么花哨的东西。我真正需要的是一些东西，我可以给一个网站的网址&它将遵循每个链接，并存储索引的内容。

浏览 0提问于2008-10-07得票数 16

回答已采纳

1回答

无法访问顶级目录，想要停止某些机器人

html、web

这个问题的答案将解决如何阻止turnitin阅读页面，但允许人类和搜索引擎蜘蛛查找，阅读和索引它。

浏览 0提问于2012-03-19得票数 2

回答已采纳

1回答

如何合并S3存储桶中的CSV文件并使用AWS Glue将其保存回S3

amazon-web-services、amazon-s3、aws-glue、aws-glue-data-catalog、aws-glue-spark

我创建了一个爬虫来扫描S3存储桶中的数据。我被卡住的地方：分隔符为";“的分类器Crawler配置爬网程序结果(未检测到架构)

浏览 1提问于2020-09-10得票数 0

2回答

阻止爬网程序跟踪javascripts中的链接

javascript、jquery、web-crawler

somepath/template_1.html';//and so on现在，爬虫正在尝试跟踪这些链接如何防止这种情况发生？

浏览 0提问于2013-02-22得票数 0

2回答

在hadoop群集上使用HBase进行Nutch 2.2.1设置

apache、hadoop、web-crawler、hbase、nutch

我已经完成了教程中给出的设置，但是没有清楚地提到如何抓取数据并将数据存储到Hbase表中。你能为我推荐一些相关的链接/书籍来获得相同的信息吗？

浏览 3提问于2014-01-15得票数 3

2回答

在Ruby中创建Web爬虫程序。如何解决性能问题？

multithreading、web-crawler、nokogiri、mechanize

我正在用Ruby构建一个网络爬虫，Rails作为前端。我使用的是Mechanize，它是基于Nokogiri构建的。我不知道任何关于线程和它的限制是什么，所以不要在爬虫运行时将服务器扣为人质，如果有人愿意指出我可以在哪里学习如何做到这一点，或者至少告诉我我应该寻找什么。

浏览 0提问于2012-09-22得票数 3

回答已采纳

5回答

网络爬虫是如何工作的？

php、timeout、web-crawler

使用一些基本的网站抓取，我试图准备一个数据库的价格比较，这将方便用户的搜索体验。现在，我有几个问题：$link = "http://xyz.com";curl_setopt ($res55, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($res55); 此外，每次我抓取一个网页，我获

浏览 1提问于2012-08-07得票数 0

回答已采纳

1回答

使用BeautifulSoup编写Python web爬虫时遇到了问题

python、html、beautifulsoup、web-crawler

关于bucky roberts关于用python编程网络爬虫的视频：如果我想爬网一个特定的项目，但它不在< a> < /a>中对于ex。我检查了这个网站，发现这是我想要的信息的代码(我想要href和标题，就像在bucky的视频中一样)： < td headers="categorylist_header_title" class="list-titlelist-title“里面是我需要抓取的，但是当我在soup.fi

浏览 2提问于2016-06-22得票数 0

2回答