腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用X509爬行某些urls时的StormCrawler证书异常
、
、
、
、
作为https
协议
,我在StormCrawler中设置了默认的https
协议
。:1.8.0_131]at sun.security.validator.PKIXValidator.doBuild(PKIXValidator.
java
:382) ~[?:1.8.0_131] at sun.security.validator.Valida
浏览 1
提问于2018-03-21
得票数 2
回答已采纳
1
回答
是否为来自网站
Java
的信息创建一个打开的监听程序?
、
、
我到处寻找,都找不到任何关于
如何
创建一个
java
监听器的信息,这个监听器监听网站上的信息,然后读取这些信息。 基本上,我希望侦听器始终在后台运行。这将是一个我控制的网站,我会让网站在用户结帐时发送数据,我想知道
如何
在后台监听数据而不是间隔时间。
浏览 1
提问于2015-06-03
得票数 1
2
回答
如何
阻止不同的web
爬虫
访问基于
java
的web应用程序?
、
、
我正在开发一个基于struts2的web应用程序,希望阻止web
爬虫
访问我的应用程序。
浏览 0
提问于2014-11-27
得票数 0
11
回答
Java
Web
爬虫
库
、
我想做一个基于
Java
的网络
爬虫
来做一个实验。我听说,如果这是您第一次使用
Java
制作的话,这是一条可行的道路。然而,我有两个重要的问题。 我应该使用哪些库?我假设我需要一个连接到网页的库,一个用于HTTP/HTTPS
协议
的库,以及一个用于HTML解析的库。
浏览 23
提问于2012-07-01
得票数 22
回答已采纳
1
回答
Java
如何
找出URL是http还是https?
、
、
、
我正在用
Java
编写一个web
爬虫
工具。当我键入网站名称时,我
如何
使它能够在不定义
协议
的情况下连接到http或https中的站点?IOException ex) {}
java
.lang.IllegalArgumentException我正在编写一个
Java
程序来测试链接是否坏了。
浏览 3
提问于2014-03-27
得票数 1
回答已采纳
1
回答
用于
爬虫
应用的数据库系统
、
我在一个基于
java
的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
1
回答
Prerender不等待动态页面标题和元标记呈现
、
、
、
、
我在标题标记中使用了{{}类似的描述,它也反映在加载的页面上,而不是在
爬虫
爬行时。您可以检查页面源代码中的代码,我尝试使用 但仍然无法使它发挥作用,有什么建议或
如何
才能做到这一点?
浏览 0
提问于2016-04-20
得票数 0
1
回答
使用javascript对SEO友好的条件加载
、
、
、
、
我计划做一个responsive+mobile的第一个网页设计。所以我的计划是: 谁能告诉我,是否可以做SEO友好的条件加载使用Javascript?或者,我是否需要查看服务器端语言即PHP/ASP来使用设备检测加载内容?
浏览 6
提问于2012-10-18
得票数 4
回答已采纳
3
回答
C++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小的网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,程序
如何
“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
2
回答
我可以使用
协议
相关的<base>标签吗?
、
、
可以方便地使用与原始请求相同的模式(超文本传输
协议
或超文本传输
协议
)包含资源(图像、CSS、JS),同时只保留缓存页面的一个副本。<base/>标记中的
协议
相关URL?
浏览 0
提问于2014-02-20
得票数 12
3
回答
是否有默认的站点地图文件路径?若否,原因为何?
例如,机器人排除
协议
将/robots.txt指定为文件路径。若否,原因为何?对于我的个人网站,我更喜欢使用约定高于配置,跳过通知搜索引擎
爬虫
我的站点地图的位置的步骤。
浏览 0
提问于2019-12-11
得票数 1
1
回答
有一个流行的工具来抓取网络数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
2
回答
使用
Java
SDK的AWS胶水作业状态
我使用下面的代码从用
Java
编写的Lambda中调用Glue作业。
如何
获取作业的状态?
浏览 1
提问于2019-09-16
得票数 1
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
如何
在扩展Generator.Element的
协议
中约束SequenceType类型
、
、
假设我正在编写一个处理多个帐户(如Facebook、Twitter等)的社交媒体
爬虫
。我为消息定义了一些
协议
(Message有显示名称和消息体,Timestamped有时间戳,Forwarded有原始消息ID等等)。然后,我为消息源定义了一个
协议
,我目前已经编写了该
协议
associatedtype MessageType :我的问题是,
如何
约束从SequenceType继承的SequenceType与MessageT
浏览 2
提问于2016-05-28
得票数 4
回答已采纳
1
回答
sitemap.xml中的编码问题
、
尽管遵循了 re:编码,但我从网络
爬虫
中得到了错误。 其中之一是YandexBot ()。
浏览 1
提问于2014-11-07
得票数 0
回答已采纳
1
回答
在某个网站中搜索的
java
程序
、
我想写一个
Java
代码来解析某个网站。网站中的每个结果都出现在指定的URL中。我该怎么开始呢?有没有好的库可以使用?我能从你在这个领域的经验中受益吗?
浏览 0
提问于2011-07-26
得票数 2
回答已采纳
1
回答
机器人/蜘蛛是否克隆公共git存储库?
、
、
、
、
虽然我想相信很多人正在找到我的代码并下载它,但其中一些代码的性质让我怀疑这些克隆是来自于机器人或搜索引擎
爬虫
/蜘蛛。有没有人知道克隆git存储库是搜索引擎
爬虫
的标准技术,还是我的代码比我想象的更受欢迎?
浏览 3
提问于2016-11-12
得票数 12
回答已采纳
2
回答
WebCrawling用户验证的网站
、
、
可以使用c#抓取用户认证的网站吗?
浏览 1
提问于2010-07-31
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
IPIDEA干货|Java爬虫与Python爬虫的区别
【Java爬虫】测测面相
Java 爬虫遇上数据异步加载
学习分享Java爬虫伪代码
Java做爬虫也很牛
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券