腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
支持windows增量爬行的Web
爬虫
、
、
、
、
我需要一个开源的web
爬虫
在
java
开发的增量爬行支持。 Nutch -一个网络
爬虫
,有更多的hadoop支持功能。但是我浏览了很多网站和
教程
,没有合适的文档,api可以在windows中通过编程方式定制它。我可
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
3
回答
使
Java
中的现有代码并行/多线程
、
、
我有一个非常简单的
爬虫
。我想让我当前的代码在几个线程中运行。你能为我提供一个小
教程
或文章来帮助我完成这项测试吗?我最初是一名.Net开发人员,在.Net中,我在多线程中运行代码没有任何问题,但不幸的是,我对
Java
中的线程一无所知。提前谢谢你。
浏览 3
提问于2011-05-15
得票数 8
回答已采纳
0
回答
爬虫
教程
电子书?
爬虫
教程
电子书
浏览 219
提问于2019-05-18
2
回答
Java
CSS爬行器
、
、
、
、
我正在寻找一个具有抓取网页的CSS能力的网络
爬虫
。我不需要任何其他花哨的爬行能力。大卫
浏览 0
提问于2011-01-17
得票数 1
回答已采纳
1
回答
请问
爬虫
的
教程
在哪 ?
、
爬虫
新手,: )
浏览 383
提问于2020-12-29
1
回答
基于Hadoop MapReduce的Web
Java
爬虫
、
、
、
我想使用MapReduce架构实现一个基于Hadoop框架的
java
爬虫
,并在HBase中插入内容。我试着把这两个
教程
结合起来: 但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?
浏览 22
提问于2017-12-19
得票数 1
回答已采纳
5
回答
如何在
Java
中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中设计一个网络
爬虫
,可以采取用户查询一个特定的新闻主题,然后访问不同的新闻网站,然后从这些网页提取新闻内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的
Java
教程
或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
1
回答
Nutch:在
Java
中调用,而不是命令行?
、
、
是我太胖了,还是真的没有办法通过一些
Java
代码以编程方式调用Apache Nutch?关于如何做到这一点的文档(或指南或
教程
)在哪里?谷歌让我失望了。所以我真的试过Bing。(另外,如果Nutch是一个垃圾,还有没有其他用
Java
编写的
爬虫
,在互联网规模上被实际文档证明是可靠的?)
浏览 4
提问于2011-03-24
得票数 8
回答已采纳
1
回答
多语言Android Sdk文档
、
、
、
、
这就是为什么我们与世界范围内的
教程
/学习网站最大的不同之处在于它是用母语编写的。我希望问题不会是无关的,这是一个完全技术性的问题。 谢谢大家
浏览 0
提问于2013-10-05
得票数 6
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
1
回答
如何从映射器中记录日志?(使用commoncrawl的hadoop)
、
、
、
、
我使用的是他们的"“
教程
中的公共
爬虫
示例代码。我正在尝试修改映射器,我希望能够将字符串记录到一些输出中。我正在考虑设置一些noSQL数据库,并将我的输出推送到它,但这感觉不是一个好的解决方案。在
java
中做这种日志记录的标准方法是什么?
浏览 3
提问于2012-12-30
得票数 0
1
回答
将Scrapy部署到Microsoft Azure
、
、
、
我用Scrapy制作了一个
爬虫
,它在分析服务器中发送他的输出。我已经检查过本
教程
了 谢谢!
浏览 3
提问于2016-03-20
得票数 0
回答已采纳
1
回答
学习多线程
Java
爬虫
的良好开端
、
、
我正在用
Java
开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用
Java
编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的
Java
构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
抓取网页
爬虫
教程
中的错误
、
、
我正在做这个简单的刮刮
爬虫
教程
给在刮刮官方网站,但得到一些错误。我第一次做这件事,对这一切一无所知。我需要在我的应用程序中实现web
爬虫
,我发现刮伤可以满足我的需求,所以从
教程
开始,并在我粘贴到下面的错误后结束。有谁能解释一下密码有什么问题吗..?这是我的
爬虫
代码 allowed_domains
浏览 0
提问于2014-02-04
得票数 3
回答已采纳
2
回答
使用
java
从Url中获取数据
、
、
应该只使用
java
来完成。
浏览 9
提问于2016-06-28
得票数 0
1
回答
nutch生成器是否使用CrawlDB进行初始链接?
、
如果是这样,
爬虫
抓取的新链接是否会存储回crawlDB?当系统关闭时会发生什么,crawlDB会在下一次nutch启动时刷新吗? 实际上,我希望nutch在系统关闭的情况下从它停止的地方继续爬行。
浏览 8
提问于2016-09-09
得票数 1
回答已采纳
1
回答
Scrapy
教程
/ Python无法使用VS代码找到爬行器
、
、
我正在学习如何使用原始
教程
使用VS代码来使用Scrapy:https://docs.scrapy.org/en/latest/intro/tutorial.html 但是,当我想运行爬行器时,我得到了以下错误消息
浏览 12
提问于2021-06-30
得票数 0
1
回答
如何开始信息提取?
、
当涉及到信息提取时,我是一个新手。在过去的几天里,我阅读了大量的学术论文,并订购了一本关于NLP的书。我想弄清楚如何构建一个类似FlipDog.com的系统(希望不是从头开始)。他们从60,000多个公司网站中提取职位空缺。我该如何开始?谢谢!
浏览 1
提问于2010-09-28
得票数 3
回答已采纳
1
回答
Web
爬虫
:检查多个网页的子页面是否有特定的字符串
、
、
不知道哪个网页
爬虫
库/模块,我应该使用或编程语言的问题-建议是欢迎的!
浏览 0
提问于2014-12-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy爬虫教程五 爬虫部署
python 爬虫教程
python爬虫教程
【Java爬虫】测测面相
IPIDEA干货|Java爬虫与Python爬虫的区别
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券