腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
用
Java
编写
的
最好
的
开源Web
爬虫
工具
是什么?
、
用
Java
编写
的
最好
的
开源Web
爬虫
工具
是什么?
浏览 0
提问于2011-12-12
得票数 13
回答已采纳
1
回答
有一个流行
的
工具
来抓取网络数据吗?
、
我正在做信息提取
的
工作,我需要一个
工具
从网页上抓取数据,windows中有流行
的
工具
吗?
浏览 7
提问于2009-12-14
得票数 0
2
回答
web爬行
工具
,支持在开始爬行之前与目标站点进行交互
、
我正在寻找一个
爬虫
,它能够处理与Ajax
的
页面,并能够在开始爬行网站之前与目标网站执行某些用户交互(例如,点击某些菜单项,填写一些表格等).I尝试webdriver/selenium (这是真正
的
网络抓取
工具
),现在我想知道是否有任何
爬虫
程序,支持模拟某些用户交互之前开始爬行?(用
Java
、Python或Ruby ...)如果是,我很感谢任何描述这一点
的
链接。
浏览 1
提问于2011-06-28
得票数 0
1
回答
如何从网站收集联系信息?
、
、
、
、
有没有人知道从网站收集联系方式
的
网络
爬虫
工具
?说我有一个www.web/联系人。我想拿出地址,电话号码等等。我一直在研究两个
工具
:
java
的
cralwer4j开源jar和。但是我发现在我
的
场景中使用它有点困难。 任何建议都会很好。谢谢
浏览 1
提问于2015-03-19
得票数 0
回答已采纳
3
回答
谷歌机器人信息?
、
、
有没有人知道更多关于谷歌网络
爬虫
(又称GoogleBot)
的
细节?我很好奇它是用什么写
的
(我自己做了几个
爬虫
,现在正准备做另一个),以及它是否能解析图像之类
的
东西。我假设它是这样做
的
,b/c images.google.com中
的
图像都被调整了大小。如果它都是用Python编写
的
,如果他们使用自己
的
库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
2
回答
以XML格式保存网页
的
工具
、
、
、
我想创建一个显示毒品信息
的
离线应用程序。我需要使用
的
信息已经在维基百科中提供了。但是在这个页面上,有那么多
的
子页面(1000+)需要保存,在我看来,手动完成这个任务是不可行
的
。还要注意,我应该将每种药物保存在XML格式
的
元素中(使用特定
的
模式)。现在我正在寻找一个
工具
来帮助这个任务。这样
的
工具
是否存在?获取HTML页面(S)并创建XML文档。最好免费 基于Windows或Linux
的
浏览 0
提问于2015-01-06
得票数 4
回答已采纳
2
回答
滚动您自己
的
web
爬虫
来抓取一个有多个条目的特定网站。
、
什么样
的
语言能够处理编写自己
的
网页
爬虫
?但是如果我需要的话,我想有一个很好
的
理由去学习一门新
的
语言。这个想法是抓取一个有多个条目的特定网站,就像一个RSS提要,但是他们不提供该站点
的
RSS提要.
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
1
回答
如何将Tor与
Java
结合使用
、
、
更新了我
的
问题我已经搜索谷歌寻找例子,但仍然没有发现任何有用
的
。 任何人都可以帮我。
浏览 1
提问于2015-04-15
得票数 18
回答已采纳
2
回答
带有最佳可定制
爬虫
和抓取器
的
建议
、
、
、
我有一个网站,这是相当好,但与非常少
的
信息。所以我想添加一些信息,比如关于特定领域
的
新闻(比如政治、好莱坞等)。我相信
爬虫
是最好
的
方法吗?如果我
的
理解是正确
的
,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源
的
爬虫
。因为这非常耗费
浏览 0
提问于2010-11-11
得票数 0
1
回答
Grails中
的
Web Crawler用于计算页面深度
、
、
我在做
爬虫
申请。我希望爬行网站,并找到深度
的
网页检索。我读过不同
的
爬行和解析
工具
,但都没有用。它们似乎都没有为计算深度提供支持。我也不确定使用哪一种
爬虫
工具
,哪种
工具
最接近所需
的
功能。任何帮助都是非常感谢
的
。
浏览 3
提问于2014-06-25
得票数 1
回答已采纳
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在
的
整个网页之间
的
关系。 我想抓取一些图像和他们
的
网页。我需要将抓取结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源
的
?
浏览 0
提问于2010-06-16
得票数 0
2
回答
基于PHP
的
Web
爬虫
或基于
JAVA
的
Web
爬虫
、
、
我对基于PHP
的
网络
爬虫
有些怀疑,它能像基于
java
线程
的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程
的
功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP
的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
Facelets SEO咨询意见
、
、
我以前
的
站点版本是用JSF编写
的
,我注意到当我将它提交给google
爬虫
时,
爬虫
并没有从我
的
索引页面中找到我
的
站点
的
所有相关部分。1)我认为这是因为
爬虫
使用原始超链接锚在站点周围导航而不理解: h:outputlink?如果是这样的话,那么Facelets已经是一个改进,因为开发人员可以使用带有J证监会属性
的
原始锚点。variable" /> <meta name="keywords"
浏览 0
提问于2011-08-27
得票数 0
1
回答
如何更新Linkedin Open Graph Image?
、
我需要在被共享时更新linkedin
的
Open Graph Image。我在Facebook和Plus上修改了,但在Linkedin上没有。在这方面有什么解决方法吗?我试着通过这个网站添加一个新
的
链接,但没有幸运
的
浏览 1
提问于2014-11-18
得票数 3
2
回答
谷歌搜索引擎优化,如何从谷歌隐藏链接,文本,图片
我有一些文本和链接生成,我想隐藏它从谷歌。有什么想法吗?谢谢
浏览 0
提问于2011-06-18
得票数 0
回答已采纳
1
回答
Google Cloud
的
IP可以被普通用户使用吗?
在经历了几天
的
大规模攻击后,大多数攻击来自中国,今天我开始从谷歌云IP(他们甚至不遵循robots.txt文件)获得很多命中,我能知道这是谷歌机器人
爬虫
程序还是人们使用谷歌云IP爬取网站?如果我屏蔽它们会影响我
的
谷歌排名吗?
浏览 16
提问于2017-08-03
得票数 0
1
回答
学习多线程
Java
爬虫
的
良好开端
、
、
我正在用
Java
开发一个网络
爬虫
。我正在寻找一个很好
的
项目开发这个
爬虫
的
基础上。然而,实际上有超过几百个用
Java
编写
的
爬虫
程序。我要找
的
是一个相当简单
的
爬虫
,它有: 基于最新
的
Java
构建和新
的
functionalityGood performanceImplemented好documentationNot
的
多线程docume
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
Facebook调试器身份验证
、
、
我需要删除一个带有服务器身份验证
的
URL。我尝试在URL中传递登录名和密码,例如:http://login:password@example.com,但没有成功。你知道有没有可能通过Facebook Debugger
的
身份验证? 谢谢!
浏览 2
提问于2016-02-24
得票数 0
4
回答
自动网络
爬虫
、
我正在编写一个
爬虫
,需要从许多网站获取数据。问题是每个网站都有不同
的
结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据
的
爬虫
?如果网站
的
结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
2
回答
数据挖掘,用于收集网站
的
详细信息并放入CSV或SQL中
他们是一页一页
的
,没有ID。至少,我可以在哪里学到这一点?谢谢。
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
IPIDEA干货|Java爬虫与Python爬虫的区别
Java爬虫框架WebMagic的使用总结
Python 爬虫的工具列表大全
【Java爬虫】测测面相
爬虫工具的选择与使用:阐述Python爬虫优劣势
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券