java爬虫框架使用_爬虫框架 java_java爬虫框架 - 腾讯云开发者社区

c#、screen-scraping、web-crawler、web-scraping

我已经决定在C#中构建爬虫。我对HttpWebRequest/HttpWebResponse类有很多不好的体验，众所周知，它们对于大型爬虫来说是高度错误和不稳定的。即使在框架4.0中，它们也是有缺陷的。我是根据自己的亲身经历说的。如果他们知道有什么好的开源爬虫框架，比如java有nutch和apache commons，它们是非常稳定和高度健壮的库，我想要这里的专家们的意见，他们已经编码爬虫程序。编辑:我必须抓取的一些网站使用非常复杂的<e

浏览 2提问于2010-12-06得票数 9

回答已采纳

2回答

使用Java的web索引器

java、parallel-processing、web-crawler、distributed-computing

当用Java开发时，并行系统和分布式系统哪个更适合网站爬虫和web索引器？可用的框架有哪些？

浏览 3提问于2010-08-01得票数 2

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

language-agnostic、web-crawler

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。除了我们自己的索引之外，我们不会使用其他索引。哪种爬虫最适合抓取图像？哪种爬虫最适合分布式爬行系统，在这种系统中我们使用多台服务器一起进行爬行？目前看来，最好的option.Scrapy:还没有大规模使用(但不确定)。我不知道它是否有基本的东西，如URL规范化。我想使用它，因为它是一个python框架

浏览 5提问于2009-07-28得票数 3

2回答

滚动您自己的web爬虫来抓取一个有多个条目的特定网站。

php、web-crawler

什么样的语言能够处理编写自己的网页爬虫？但是如果我需要的话，我想有一个很好的理由去学习一门新的语言。

浏览 0提问于2011-08-02得票数 0

回答已采纳

2回答

每个线程有一个数据库连接？

java、database、multithreading、postgresql、connection

我制作了一个网络爬虫，每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接，还是与它们共享一个连接？

浏览 0提问于2011-05-18得票数 1

回答已采纳

1回答

基于Hadoop MapReduce的Web Java爬虫

java、hadoop、mapreduce、web-crawler

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我试着把这两个教程结合起来：但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里？

浏览 22提问于2017-12-19得票数 1

回答已采纳

1回答

twitter好友爬行器

twitter、web-crawler

是否有可能根据友谊信息为twitter编写一个爬虫？我环顾四周，但至今没有发现任何有用的东西。谢谢莱拉

浏览 1提问于2011-03-17得票数 0

2回答

在网站和独立应用程序中使用Django框架

python、django

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

3回答

有没有java script web爬虫框架？

javascript、web-crawler

有没有JavaScript网络爬虫框架？

浏览 0提问于2011-04-06得票数 13

1回答

如何提取我的爬虫目前所站的网址？

python、scrapy、web-crawler

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

如何使用ASP核心运行爬虫、服务交互和生命周期问题

c#、asp.net-core、web-crawler

我用ASP Core3.1应用程序开发了一个网络爬虫。其根本原因是，尽管应用程序作为一个整体被设计为一个API (用于启动爬虫、停止它、获取一些爬行数据)，但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题，但是我没有更好的方法来运行这个爬虫。我应该期待哪些问题，是否有更合适的方法来设计这些服务？

浏览 3提问于2020-03-03得票数 0

回答已采纳

2回答

抓取图像、整个Web页面并缓存它们

python

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。

浏览 0提问于2010-06-16得票数 0

1回答

用于抓取webservices服务的Nutch或其他框架

web-services、mapreduce、web-scraping、nutch、hadoop-yarn

我正在寻找一个框架，我可以用于以下情况:我有2个网络服务。我调用第一个具有json响应的服务。在json响应中，我有一些it，用于调用其他服务，然后合并服务响应并将其存储在db中。我找到的是Nutch，但它看起来像是一个主要处理html页面的网络爬虫。有没有什么框架可以让我在上面的场景中使用？我正在寻找一个容错的、可销售的java框架。谢谢!

浏览 4提问于2015-10-29得票数 0

1回答

获取用于制作web爬虫的页面的完整html源代码。

java、web-crawler、jsoup

我试图在java中制作一个web爬虫，它接受网页的URL，并导航到给定网页的源代码中存在的其他页面。问题是，我正在获得HTML的源代码，它包含各种标记，如框架和一些javascript文件名。现在，要导航到其他页面，我需要访问框架和javascript文件中提供的http链接。我应该如何在列表中得到这些链接。

浏览 0提问于2015-10-14得票数 0

回答已采纳

2回答

数据挖掘，用于收集网站的详细信息并放入CSV或SQL中

data-mining

我不知道这是叫数据挖掘还是别的什么。我如何开始编写一个程序，它将抓取他们的页面，并将页面的选择性信息放入CSV格式，然后我可以将其导入到我的网站中？

浏览 9提问于2011-03-26得票数 0

回答已采纳

2回答

抓取Facebook粉丝页面

facebook、web-crawler

我想cral一个facebook的粉丝页面，以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做？

浏览 0提问于2009-12-16得票数 0

回答已采纳

1回答

如何对Google机器人和其他机器人隐藏某些DIV

html、seo

因此，我有一个网站，它要求用户在查看任何信息之前验证其年龄，如果您使用DIV，我会显示选项以选择18岁以上： <div class="contenido-edad

浏览 0提问于2015-12-11得票数 0

2回答

以XML格式保存网页的工具

html、offline、document-converter、xml

我需要使用的信息已经在维基百科中提供了。但是在这个页面上，有那么多的子页面(1000+)需要保存，在我看来，手动完成这个任务是不可行的。还要注意，我应该将每种药物保存在XML格式的元素中(使用特定的模式)。现在我正在寻找一个工具来帮助这个任务。这样的工具是否存在？获取HTML页面(S)并创建XML文档。

浏览 0提问于2015-01-06得票数 4

回答已采纳

5回答

在为web编程时，我是否应该切换到Java以外的语言？

java

我有一个类似爬虫的软件，它可以在读取和解析特定网页后填充表。我是用Java (使用Hibernate)编写的。我已经有了实体和其他逻辑。我的问题是，我是否应该使用Java以外的语言编写的简单web框架，比如Django，或者我应该坚持使用Java并重用我已经拥有的那些实体和逻辑？如果我在中使用另一种语言，我预计我将需要复制Java part中已有的一些逻辑，这意味着更有可能发生错误。我这么问的原因是，当我试图用<em

浏览 1提问于2010-02-08得票数 0

回答已采纳

2回答

Drupal + Nutch + Solr

drupal、solr、nutch

显然，我们需要选择一个好的网络爬虫和全文搜索引擎。由于我们的团队有使用Drupal开发网站的良好经验，团队中的一名成员提出了这个解决方案:将Drupal的社交功能与Nutch作为网络爬虫，将Solr作为FTS搜索引擎。第三个问题：(根据团队成员的建议)如何使用Wicket等UI Java框架对整个站点进行编码，并将其与Nutch和Solr集成，因为这三种技术都是基于Java的？谢谢

浏览 2提问于2010-11-15得票数 1

点击加载更多