腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2680)
视频
沙龙
2
回答
如何将.
java
和html结合起来?
、
、
、
我试图创建一个web应用程序,用户可以选择一个
电影
的名称(前)。(“空中坠落”)从下拉列表。然后,我想执行一个
爬虫
到rottentomatoes.com并获取与这部
电影
相关的所有html页面。我有一个web
爬虫
: crawler4j,如果我选择将主.
java
文件作为应用程序运行,它就会运行。我怎么才能把这两者结合起来? 是否可以使用html中的参数(
电影
名称)调用
java
类文件?为了在我的html中执行它,我必须用
爬虫
创建一个单独的Applet吗?
浏览 3
提问于2012-12-10
得票数 0
回答已采纳
1
回答
如何用python爬取数据并保存到excel?
利用python爬取
豆瓣
电影
排行榜(https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页
豆瓣
top250的数据可以爬取到excel中,但将网址及相关信息改为网页
豆瓣
电影
排行榜中的信息时便无法爬取,也找不出问题所在。以下图片为完整代码。
浏览 340
提问于2021-01-09
1
回答
用于自然语言处理的文本数据集
、
、
要获得它们,需要编写一些类似于
爬虫
的东西,这并不是很方便。原因是我试图在我的自然语言处理项目中使用一些电视节目,采访,广播,
电影
的文本作为训练数据。所以我想知道网上是否有免费的收藏或数据库,这样我就可以一次下载所有的东西,而不需要自己编写
爬虫
程序?
浏览 3
提问于2013-08-28
得票数 3
1
回答
将
Java
类中的成员变量转换为对象数组,反之亦然
有一个包含30+成员变量的类,需要将它传递给一个函数,然后在处理后从函数返回它。但此函数只接受基本数据类型,如string、int。我希望将这些成员变量转换为对象数组,将其传递给函数,然后再转换回来。源代码如下: int member1; int member3; //source code //assi
浏览 3
提问于2014-03-17
得票数 1
回答已采纳
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
1
回答
学习多线程
Java
爬虫
的良好开端
、
、
我正在用
Java
开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用
Java
编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的
Java
构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
从data服务器拉取数据
、
、
我已经制作了抓取器来从网站(如
电影
)中提取数据,但是我如何连接到网站服务器来直接从那里的数据库中提取数据,而不是创建一个
爬虫
来从可视化站点中提取数据?如果你可以给我的库名,工具集或指南,你会很酷。
浏览 2
提问于2013-03-30
得票数 0
回答已采纳
2
回答
需要web爬网帮助
我想知道是否有人知道他们使用过的一个像样的健壮的开源网络
爬虫
?新手应该很容易安装和使用。 感谢您没有搜索网络
爬虫
和粘贴列表。
浏览 2
提问于2010-02-21
得票数 4
1
回答
支持windows增量爬行的Web
爬虫
、
、
、
、
我需要一个开源的web
爬虫
在
java
开发的增量爬行支持。 Crawl4j是一个很好的网络
爬虫</
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
1
回答
java
web
爬虫
嗨,谁能推荐一个简单的
java
网络
爬虫
,爬行一个网站,并返回一个链接列表的网站?不,我不需要解析器。感谢您的关注。
浏览 2
提问于2011-03-01
得票数 0
1
回答
识别搜索爬行器
、
、
、
我有一个网站,统计有多少人访问了这个特定的网页,但我不想计数什么时候搜索
爬虫
访问他们。
java
是否有任何方法来识别它是
爬虫
还是真正的用户?使用
Java
7和tomcat 谢谢
浏览 2
提问于2015-10-21
得票数 1
回答已采纳
1
回答
用于
爬虫
应用的数据库系统
、
我在一个基于
java
的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
1
回答
Web Crawler的功能
、
、
网络
爬虫
是否只从网页中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源
Java
网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
2
回答
有没有可以下载整个网站的网络
爬虫
?
、
需要知道是否有一个
爬虫
/下载器,可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法抓取这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的网络
爬虫
)?
、
或者,更普遍的是,高效的网络
爬虫
是用哪种语言编写的? 我见过很多
Java
语言,但在我看来,它不是最适合开发网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用PHP或
Java
编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
2
回答
Lucene
爬虫
(它需要建立lucene索引)
、
、
我正在寻找Apache Lucene网络
爬虫
写在
java
,如果可能的话,或在任何其他语言。
爬虫
必须使用lucene并创建有效的lucene索引和文档文件,因此这就是nutch被排除的原因。有没有人知道这样的网络
爬虫
是否存在,如果答案是肯定的,我可以找到它。Tnx..。
浏览 0
提问于2009-10-16
得票数 1
回答已采纳
1
回答
JAVA
中的Web Crawler。
java
.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中爬取所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误:
java
.lang.outOfMemory :无法创建本机线程
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
爬虫
的常见输出格式是什么?它会是XML,JSON吗?或者它会根据
爬虫
的不同而不同,例如: Python,
Java
?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java豆瓣电影爬虫——减少与数据库交互实现批量插入
Python爬虫入门2 爬取豆瓣电影信息
Python爬虫零基础教程:采集豆瓣电影数据
Python爬虫:多线程下载豆瓣Top250电影图片
Scrapy爬虫(4)爬取豆瓣电影Top250图片
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券