腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
抓取图像、整个Web页面并缓存它们
python
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
1
回答
学习多线程
Java
爬虫
的良好开端
java
、
multithreading
、
web-crawler
我正在用
Java
开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用
Java
编写的
爬虫
程序
。我要找的是一个相当
简单
的
爬虫
,它有: 基于最新的
Java
构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
如何从
java
类调用python脚本
java
、
python
我有一个
java
网络应用
程序
,我需要使用一个
简单
的网络
爬虫
来读取网页中的html。我在
java
中找不到任何
简单
的解决方案。但是我得到了一个非常
简单
的python脚本来解决我的问题。现在,如何从我的
java
类调用python脚本(.py),并预先从python脚本.Thanks获取返回值。
浏览 1
提问于2015-02-05
得票数 0
2
回答
Java
CSS爬行器
java
、
lucene
、
web-crawler
、
nutch
、
xapian
我正在寻找一个具有抓取网页的CSS能力的网络
爬虫
。我不需要任何其他花哨的爬行能力。 我想通过Xapian,Nutch和Heritrix。它们看起来都有点复杂。如果有人有任何经验或建议,我很乐意听到。
浏览 0
提问于2011-01-17
得票数 1
回答已采纳
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
java
、
php
、
web-crawler
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
EJB未注入
dependency-injection
、
ejb
、
nullpointerexception
、
code-injection
我的
Java
应用
程序
使用,它使用以下代码开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
redirect
、
asp.net-mvc-4
、
web-crawler
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
从Highcharts读取数据
java
、
highcharts
、
web-crawler
我正在开发一个基于
java
的
爬虫
程序
,从一些网站提取数据。我希望在我的数据库中有一个项目,它的数据是时间序列highcharts。解析highcharts并提取其数据的最
简单
方法是什么?
浏览 0
提问于2015-08-28
得票数 1
2
回答
有没有可以下载整个网站的网络
爬虫
?
dynamic
、
hyperlink
需要知道是否有一个
爬虫
/下载器,可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序
无法抓取这些超链接,除非
爬虫
程序
自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
1
回答
与ask.wireshark.org的Https连接不能工作
java
package Others; import
java
.net.URL;import
java
.security.SecureRandom;import
java
.security.cert.X509Certificate
浏览 9
提问于2015-11-25
得票数 0
回答已采纳
1
回答
Nutch API建议
java
、
web-crawler
、
nutch
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对
简单
:我需要一个能够将数据保存到磁盘的
爬虫
程序
,并且我需要它能够仅重新爬取站点的更新资源,并跳过已经爬取的部分。有没有人有在
Java
中直接使用Nutch代码的经验,而不是通过命令行。我想从
简单
开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
用于
爬虫
应用的数据库系统
database
、
web-crawler
我在一个基于
java
的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
3
回答
C++网络
爬虫
c++
、
sockets
、
ssh
、
web-crawler
我正在尝试并尝试制作一个最小的网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,
程序
如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
1
回答
从
Java
获取带有javascript链接的网页
java
、
parsing
、
web-crawler
、
html-parsing
、
nutch
我在
Java
中有一个web
爬虫
应用
程序
,需要访问网页中的所有链接。问题是,在某些页面中,链接是由javascript函数生成的。我希望找到网页中所有链接的最
简单
/最快的方法,甚至是
Java
中的javascript链接。(欢迎使用C/C++解决方案)。我也知道 (
爬虫
)有一个来自Javascript的链接提取器,但我不确定该代码是否可以从Nutch中“提取”出来,用于另一个上下文中。
浏览 4
提问于2010-11-09
得票数 0
1
回答
用于开源Lucene的索引序列步骤,使用SQL或Nosql
c#
、
lucene.net
、
architecture
我是开源游戏的新手。在我开始我打算做什么之前,我有一个问题。假设我计划使用c#,没有NoSQL (没有计划使用哪个(RavenDb或MongoDb)),我想在asp.net中为一个站点建立索引。我的意思是,它是一个每晚开始索引的后台进程,就像SharePoint索引一样,还是在应该调用索引记录时调用insert to nosql的时刻。我对步骤的顺序特别感
浏览 6
提问于2011-02-05
得票数 0
回答已采纳
1
回答
如何使用AWS glue将模式或处理过的嵌套json文件压缩(Gzip)存储在s3中?
json
、
compression
、
aws-glue
、
amazon-athena
如何使用AWS glue将模式或处理过的嵌套json文件压缩(Gzip)存储在s3中?有没有办法不写zeepline代码?
浏览 0
提问于2020-04-16
得票数 0
3
回答
使用
Java
读取文件的最后n个字节
java
、
windows
、
file-processing
我有一个
爬虫
程序
,记录一些文件。有时在服务器上,会发生一些错误,
爬虫
会创建大量无法解析的日志文件。出于这个原因,我想创建一个
简单
的
程序
,它读取日志文件末尾的大约1000个字符,并向我显示消息(即使
爬虫
仍在写入该文件)。这将帮助我在不关闭
爬虫
的情况下解决问题。
浏览 1
提问于2013-03-10
得票数 7
回答已采纳
4
回答
Java
-销毁正在执行某些操作的对象
java
、
multithreading
我看过
Java
中关于析构函数的帖子,了解到
Java
没有析构函数,但我很困惑,如果没有析构函数,我的应用
程序
需要做什么。 我的应用
程序
允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序
。
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
2
回答
如何将.
java
和html结合起来?
java
、
html
、
eclipse
、
web-crawler
我试图创建一个web应用
程序
,用户可以选择一个电影的名称(前)。(“空中坠落”)从下拉列表。然后,我想执行一个
爬虫
到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用
程序
( GUI)。我有一个web
爬虫
: crawler4j,如果我选择将主.
java
文件作为应用
程序
运行,它就会运行。是否可以使用html中的参数(电影名称)调用
java
类文件? 为了在我的html中执行它,我必须用<
浏览 3
提问于2012-12-10
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
web-crawler
需要将现有应用
程序
连接到社交媒体监控。
爬虫
的常见输出格式是什么?它会是XML,JSON吗?或者它会根据
爬虫
的不同而不同,例如: Python,
Java
?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
简单的爬虫
Python练习-简单爬虫
如何简单入门爬虫?
简单python爬虫案例
【Java爬虫】测测面相
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券