java爬虫教程_网络爬虫教程java_python爬虫教程 - 腾讯云开发者社区

、、、、

我需要一个开源的web爬虫在java开发的增量爬行支持。 Nutch -一个网络爬虫，有更多的hadoop支持功能。但是我浏览了很多网站和教程，没有合适的文档，api可以在windows中通过编程方式定制它。我可

浏览 4提问于2014-09-22得票数 1

回答已采纳

3回答

使Java中的现有代码并行/多线程

、、

我有一个非常简单的爬虫。我想让我当前的代码在几个线程中运行。你能为我提供一个小教程或文章来帮助我完成这项测试吗？我最初是一名.Net开发人员，在.Net中，我在多线程中运行代码没有任何问题，但不幸的是，我对Java中的线程一无所知。提前谢谢你。

浏览 3提问于2011-05-15得票数 8

回答已采纳

0回答

爬虫教程电子书？

爬虫教程电子书

浏览 219提问于2019-05-18

2回答

Java CSS爬行器

、、、、

我正在寻找一个具有抓取网页的CSS能力的网络爬虫。我不需要任何其他花哨的爬行能力。大卫

浏览 0提问于2011-01-17得票数 1

回答已采纳

1回答

请问爬虫的教程在哪？

、

爬虫新手，: )

浏览 383提问于2020-12-29

1回答

基于Hadoop MapReduce的Web Java爬虫

、、、

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我试着把这两个教程结合起来：但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里？

浏览 22提问于2017-12-19得票数 1

回答已采纳

5回答

如何在Java中设计一个网络爬虫？

、、

我在一个项目上工作，这需要在Java中设计一个网络爬虫，可以采取用户查询一个特定的新闻主题，然后访问不同的新闻网站，然后从这些网页提取新闻内容，并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容，这需要手动获取页面，但我不知道如何将它集成在一个网络爬虫中，从不同的页面提取内容。有没有人可以提供一些好的Java教程或实现的链接，我可以根据需要使用或修改这些链接？

浏览 0提问于2012-04-05得票数 4

回答已采纳

1回答

Nutch:在Java中调用，而不是命令行？

、、

是我太胖了，还是真的没有办法通过一些Java代码以编程方式调用Apache Nutch？关于如何做到这一点的文档(或指南或教程)在哪里？谷歌让我失望了。所以我真的试过Bing。(另外，如果Nutch是一个垃圾，还有没有其他用Java编写的爬虫，在互联网规模上被实际文档证明是可靠的？)

浏览 4提问于2011-03-24得票数 8

回答已采纳

1回答

多语言Android Sdk文档

、、、、

这就是为什么我们与世界范围内的教程/学习网站最大的不同之处在于它是用母语编写的。我希望问题不会是无关的，这是一个完全技术性的问题。谢谢大家

浏览 0提问于2013-10-05得票数 6

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

2回答

抓取图像、整个Web页面并缓存它们

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。

浏览 0提问于2010-06-16得票数 0

1回答

如何从映射器中记录日志？(使用commoncrawl的hadoop)

、、、、

我使用的是他们的"“教程中的公共爬虫示例代码。我正在尝试修改映射器，我希望能够将字符串记录到一些输出中。我正在考虑设置一些noSQL数据库，并将我的输出推送到它，但这感觉不是一个好的解决方案。在java中做这种日志记录的标准方法是什么？

浏览 3提问于2012-12-30得票数 0

1回答

将Scrapy部署到Microsoft Azure

、、、

我用Scrapy制作了一个爬虫，它在分析服务器中发送他的输出。我已经检查过本教程了谢谢！

浏览 3提问于2016-03-20得票数 0

回答已采纳

1回答

学习多线程Java爬虫的良好开端

、、

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot

浏览 1提问于2012-04-16得票数 0

回答已采纳

1回答