爬虫技术_python爬虫技术_爬虫技术违法吗 - 腾讯云开发者社区

python、api、rest、elasticsearch、elasticsearch-py

我是一个实时分布式搜索引擎elasticsearch的新手，但我想问一个技术问题。真正的问题如下所示。哪种技术更适合我的场合？

浏览 4提问于2015-12-01得票数 1

1回答

最好的爬虫确定与技术建设？

web-crawler

Builtwith.com和类似的服务(收费)提供了使用SalesForce或NationBuilder等特定技术构建的域列表。有一些技术，我感兴趣的，与建设不扫描，可能是因为他们太小的市场存在。如果我们知道某个网页的某些签名显示了一种技术是用于一个网站，什么是最好的方式来识别尽可能多的这些网站？我们预计有1000个网站，我们感兴趣的是那些排名前一千万的网站。(我们不认为最大的网站使用这种技术。) 我有一个开源网络爬虫列表-- --但是我的用例似乎与爬虫的许多常规标准不同，因为我们只想

浏览 2提问于2017-03-28得票数 3

回答已采纳

3回答

Kentico 10使用的Web Crawler引擎

web-crawler、kentico

根据文档，是否有更多关于Kentico 10使用的网络爬虫技术/引擎的信息？我之所以问这个问题，是因为我想把它用于一个定制的爬虫项目，这个项目可以位于Kentico之外，并且仍然允许它与Kentico平台具有内在的兼容性。

浏览 0提问于2017-08-31得票数 7

回答已采纳

3回答

聚合器是如何构建的？

web-services、aggregation、web-crawler、nutch

比方说，我想要从许多来源(可以是旅行、技术或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢？或者Kayak.com如何聚合他们的数据？(这是一项旅游聚合服务。)

浏览 2提问于2009-05-29得票数 14

2回答

SEO + ViewState =只适用于爬虫？是隐形吗？

.net、c#、cloaking

这里有足够多的问号，所以我想避免这种技术。我对这两种情况都不满意，也找不到更多关于这个话题的东西。我潜在的解决方案是，只有当ViewState是一个爬虫时，才将UserAgent移动到页面底部，从而将这些技术结合起来。爬虫不使用ViewState，所以将ViewState

浏览 0提问于2013-05-01得票数 2

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

performance、seo

所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2提问于2013-03-18得票数 3

1回答

抓取AJAX请求

ajax、seo、web-crawler

基于日志，爬虫试图像正常gets一样访问这些AJAX方法，因此我的应用程序会记录错误。我将这些AJAX方法设置为不可爬行，这意味着当请求不是AJAX调用时，我将返回404。这是最好的方法吗？

浏览 4提问于2014-11-03得票数 0

2回答

风暴爬虫-技术栈和Apache Nutch

web-crawler、apache-storm、nutch、stormcrawler

我听说Apache可以解决这个问题，但遗憾的是，它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本，Elasticsearch降到1.7/1.4，所以我把注意力转移到了风暴爬虫上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3，有人能告诉我是否可以使用风暴爬虫0.9吗？

浏览 3提问于2016-04-06得票数 1

回答已采纳

3回答

寻找关于搜索引擎背后的理论的好书

search、search-engine、web-crawler

我正在做一个项目，要求我理解搜索引擎在网络上使用的不同技术。我是全新的学科，我正在寻找有用的资源和书籍的主题。如有任何建议，敬请见谅。

浏览 0提问于2011-09-03得票数 8

回答已采纳

1回答

抓取器正在获取相关链接。

python、scrapy

我已经创建了一个使用scrapy.The爬虫爬虫的网站和抓取链接。**所使用的技术：**Python，Scrapy Error抓取相对urls，因为刮刀器无法抓取网页。我要爬虫只取无源网址。

浏览 2提问于2021-06-29得票数 1

2回答

我们还应该关心ajax爬行规范吗？

ajax、seo、web-crawlers、single-page-application、googlebot

似乎是谷歌爬虫运行js。但是ajax爬行文档技术仍然可以在谷歌开发者的网站上使用。它们是否仍然有效，是否有必要加以遵循？

浏览 0提问于2015-11-28得票数 5

1回答

学习多线程Java爬虫的良好开端

java、multithreading、web-crawler

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot

浏览 1提问于2012-04-16得票数 0

回答已采纳

1回答

获得由Shodan爬行的Screen发URL

shodan

当shodan爬行一个IP时，需要一个基于某种技术的屏幕截图(？)尽管如此，肖丹拍摄的大部分截图都是来自IP摄像头。有什么方法可以访问爬虫在上面找到图像的URL吗？爬虫找到了"rtsp://blargh.com/1/stream"，拍了一张那条小溪的截图。我能以某种方式访问这个确切的URL吗？

浏览 0提问于2021-03-14得票数 0

回答已采纳

9回答

如何防止所有爬虫，除了好的(谷歌，必应，雅虎)访问网站内容？

web-crawler

我只想让谷歌，必应，雅虎爬行我的网站建立索引。但我不希望我的对手网站使用抓取服务来窃取我的网站内容。我该怎么办？

浏览 6提问于2010-03-09得票数 2

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

python、scrapy、web-crawler

基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站结构方面进行更新，而且大多数网站都有需要下载的文档。或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些网络爬虫将仅用于下载我针对的网站的新信息。

浏览 3提问于2019-04-29得票数 0

1回答