java爬虫框架 - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

使用Java的web索引器

、、、

当用Java开发时，并行系统和分布式系统哪个更适合网站爬虫和web索引器？可用的框架有哪些？

浏览 3提问于2010-08-01得票数 2

回答已采纳

5回答

我已经决定在C#中构建爬虫。我对HttpWebRequest/HttpWebResponse类有很多不好的体验，众所周知，它们对于大型爬虫来说是高度错误和不稳定的。即使在框架4.0中，它们也是有缺陷的。我是根据自己的亲身经历说的。如果他们知道有什么好的开源爬虫框架，比如java有nutch和apache commons，它们是非常稳定和高度健壮的库，我想要这里的专家们的意见，他们已经编码爬虫程序。如果C#中已经存在一些爬行框架，我将继续在它

浏览 2提问于2010-12-06得票数 9

回答已采纳

1回答

twitter好友爬行器

、

是否有可能根据友谊信息为twitter编写一个爬虫？我环顾四周，但至今没有发现任何有用的东西。谢谢莱拉

浏览 1提问于2011-03-17得票数 0

3回答

有没有java script web爬虫框架？

、

有没有JavaScript网络爬虫框架？

浏览 0提问于2011-04-06得票数 13

2回答

最适合用于图像爬行的开源、可扩展爬虫

、

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。一些特殊问题：现在这些看起来是最好的三种选择-摘要：我们需要从网络上获取尽可能多的图片。现

浏览 5提问于2009-07-28得票数 3

2回答

滚动您自己的web爬虫来抓取一个有多个条目的特定网站。

、

什么样的语言能够处理编写自己的网页爬虫？但是如果我需要的话，我想有一个很好的理由去学习一门新的语言。

浏览 0提问于2011-08-02得票数 0

回答已采纳

1回答

获取用于制作web爬虫的页面的完整html源代码。

、、

我试图在java中制作一个web爬虫，它接受网页的URL，并导航到给定网页的源代码中存在的其他页面。问题是，我正在获得HTML的源代码，它包含各种标记，如框架和一些javascript文件名。现在，要导航到其他页面，我需要访问框架和javascript文件中提供的http链接。我应该如何在列表中得到这些链接。

浏览 0提问于2015-10-14得票数 0

回答已采纳

2回答

抓取Facebook粉丝页面

、

我想cral一个facebook的粉丝页面，以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做？

浏览 0提问于2009-12-16得票数 0

回答已采纳

2回答

每个线程有一个数据库连接？

、、、、

我制作了一个网络爬虫，每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接，还是与它们共享一个连接？

浏览 0提问于2011-05-18得票数 1

回答已采纳

1回答

基于Hadoop MapReduce的Web Java爬虫

、、、

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我试着把这两个教程结合起来：但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里？

浏览 22提问于2017-12-19得票数 1

回答已采纳

1回答

如何使用ASP核心运行爬虫、服务交互和生命周期问题

、、

我用ASP Core3.1应用程序开发了一个网络爬虫。其根本原因是，尽管应用程序作为一个整体被设计为一个API (用于启动爬虫、停止它、获取一些爬行数据)，但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题，但是我没有更好的方法来运行这个爬虫。我应该期待哪些问题，是否有更合适的方法来设计这些服务？

浏览 3提问于2020-03-03得票数 0

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

2回答

抓取图像、整个Web页面并缓存它们

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。

浏览 0提问于2010-06-16得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

Scrapy:如何从crawler获取处理过的流水线项目？

、

爬虫是一个更大的框架的一部分，它需要爬虫返回一个解析的项目列表。在Scrapy中，我实现了一个包含几个规范化步骤的管道。由于Scrapy是更大的框架的一部分-如果我可以在通过整个管道后将项目返回到爬虫和/或框架，那就太好了。有没有办法做到这一点？

浏览 0提问于2013-12-05得票数 0

1回答

Nutch与Heritrix的比较

、、

我想选择上面的其中之一，为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引，而是有兴趣从网站上抓取特定的页面。有没有人能详细介绍一下上述的利弊？谢谢Nayn

浏览 1提问于2010-07-16得票数 2

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

用于抓取webservices服务的Nutch或其他框架

、、、、

我正在寻找一个框架，我可以用于以下情况:我有2个网络服务。我调用第一个具有json响应的服务。在json响应中，我有一些it，用于调用其他服务，然后合并服务响应并将其存储在db中。我找到的是Nutch，但它看起来像是一个主要处理html页面的网络爬虫。有没有什么框架可以让我在上面的场景中使用？我正在寻找一个容错的、可销售的java框架。谢谢!

浏览 4提问于2015-10-29得票数 0

2回答