腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用crawler4j库实现
Java
crwaler中模式匹配的一些信息
、
、
、
我想用
Java
实现一个非常简单的web
爬虫
,我已经找到了这个库: crawler4j:从URL开始(由我指定),并识别当前页面中是否有一个特定的单词,比如自己的名称或公司名称(这个词也是由我指定的) 如果找到这个单词,则必须将当前页面URL保存在
数据
库中。因此,没有语义
分析
,只有语法
分析
(
爬虫
必须尝试将网页内容与我指定的标记匹配)。
浏览 4
提问于2013-02-21
得票数 0
回答已采纳
5
回答
Java
中是否有用于文本
分析
/挖掘的API?
、
、
、
、
我想知道
Java
中是否有可以进行文本
分析
的API。可以提取文本中的所有单词、单独的单词、表达式等的东西。可以通知找到的单词是数字、日期、年份、名称、货币等的东西。我现在正在开始文本
分析
,所以我只需要一个API就可以启动了。我做了一个网络
爬虫
,现在我需要一些东西来
分析
下载的
数据
。需要方法来计算页面中的单词数量,相似的单词,
数据
类型和其他与文本相关的资源。
Java
中有用于文本
分析
的API吗? 编辑:文本挖掘,我想要挖掘文本。
Jav
浏览 2
提问于2011-07-23
得票数 25
回答已采纳
1
回答
如何使用Selenium来转储Web页面的整个DOM树?
、
、
、
我将通过
分析
Web页面的内容来构建一个Web
爬虫
。我正在使用Selenium
Java
API来呈现页面,并尝试构建完整的DOM来进行模糊
分析
。
浏览 13
提问于2016-09-23
得票数 0
3
回答
从用户代理识别
爬虫
程序
、
我想跟踪我的site.For的所有访问者( Os,浏览器和更多细节),我正在保存用户代理和URL和其他基本
数据
到database.Later执行Crone时,用户代理被
分析
并获取浏览器,Os。但我想识别
爬虫
(因为它们不能被视为访问者)。那么有没有办法从用户代理中识别
爬虫
呢?
爬虫
的用户代理是否遵循任何常见的模式?
浏览 1
提问于2012-06-12
得票数 0
1
回答
如何处理
爬虫
和过时的资产?
、
、
文件夹7adcf7ba已经不存在了,所以我认为
爬虫
以某种方式使用了缓存
数据
。我可以使用robots.txt吗?元标签?特殊属性?我怎么发动汽车呢?
浏览 0
提问于2017-12-04
得票数 0
3
回答
用户代理识别和搜索引擎优化
爬虫
数据
库
、
我被要求
分析
一个网站的流量日志。特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或网络
爬虫
库?这是第二个问题。在我的交通记录中也有很多空的用户代理。一个空的用户代理头是与
爬虫
有关还是与一个创作过程有关?
浏览 0
提问于2012-08-07
得票数 2
1
回答
谷歌网站管理员工具的
数据
来源是什么?
谷歌网站管理员工具从哪里获得所有的
数据
?它是与谷歌
分析
等配对,还是纯粹是
爬虫
和搜索它显示?
浏览 0
提问于2010-07-12
得票数 4
回答已采纳
1
回答
500G 在哪儿能找到资料?
、
、
、
、
500G python web、
爬虫
、
数据
分析
、机器学习、大
数据
、前端实战项目视频代码免费分享 在哪儿能下载到资料,在线等,挺急的~, 感谢各位大佬~
浏览 233
提问于2019-05-10
1
回答
网站
数据
爬虫
,发布
数据
和遍历
、
、
我需要
分析
几个网站,一旦完成,我需要发送一些
数据
给它。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供
数据
。根据目标站点的更新,结果页可能会有所不同。我想编写这样一个
爬虫
。我已经精通
java
和C语言,所以任何基于它们的东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
2
回答
一个网站会被列入黑名单,如果它提供不同版本的谷歌的佩格
爬虫
和正常用户?
、
、
这个问题实际上是双重的: 是否有可能通过检测用户代理(~灯塔,其他页面
爬虫
)来欺骗分页
分析
器,并为该网站提供一个简化的、更快的版本?如果是的话,这会不会随着时间的推移而被发现,让你被列入黑名单?另外,与之相反的是,是否有可能向
爬虫
提供额外的
数据
(json-ld),而这些
数据
是您不希望加载给普通用户的?
浏览 0
提问于2019-04-03
得票数 0
回答已采纳
1
回答
用于web
分析
的
数据
集API
、
、
、
、
在
数据
挖掘视图中,我知道有Twitter API,您可以从中实现
爬虫
程序并收集
数据
。提前感谢您提供的任何信息。
浏览 3
提问于2014-08-30
得票数 1
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
我的网站的一个设计特点是爬行和显示从另一个网站
分析
的
数据
(例如,股票价格的变化)。我已经有了负责解析
数据
的python
爬虫
,但是我不知道如何(在后台)在firebase中执行服务器的这个python
爬虫
(或者根本不可能)?下面是我的系统的示例用法 用户可以从
数据
库中看到网站变更的摘要。我想到的一个选择是在本
浏览 0
提问于2018-01-25
得票数 3
1
回答
Java
/1.7.0_07作为用户代理
、
几乎每天都有东西(应该是一个机器人)访问我网站上的所有页面(除其他外,它不能正确处理urls中的空间),以
Java
/1.7.0_07 (或不同的
java
版本)作为参考。谢谢
浏览 0
提问于2012-10-17
得票数 2
回答已采纳
1
回答
如何使用首先需要获取的gatsby添加元标记
、
、
siteMetadata: { },};谢谢。
浏览 13
提问于2022-04-19
得票数 1
1
回答
Google Plus Crawler
、
我正在进行一项社交媒体
分析
,并收集
数据
集进行研究。我一直在网上搜索任何制作谷歌加
爬虫
的方法。那么,我的问题是,是否有人知道是否有可能制作一个Google +
爬虫
来收集公共帖子的信息?
浏览 2
提问于2014-02-12
得票数 0
回答已采纳
7
回答
什么是网络
爬虫
的理想编程语言?
我需要建立一个内容收集程序,将简单地读取指定网页上的数字,并保存该
数据
以供以后
分析
。我不需要它来搜索链接或相关
数据
,只需要从网站收集所有
数据
,这些网站每天都会有变化的内容。速度不是一个大问题,我估计
爬虫
一天最多要加载4000个页面。编辑:有没有办法提前测试我正在收集
数据
的网站是否受到
爬虫
的保护?
浏览 2
提问于2009-06-10
得票数 6
回答已采纳
2
回答
AWS胶爬行器是做什么的?
、
我读过AWS胶水文档re:
爬虫
在这里:,但我仍然不清楚glue
爬虫
到底做了什么。
爬虫
是否遍历S3存储桶,并创建指向这些存储桶的指针?当文档说“爬行器的输出由
数据
目录中定义的一个或多个元
数据
表组成”时,这些元
数据
表的目的是什么?
浏览 1
提问于2018-12-04
得票数 3
回答已采纳
1
回答
向远程MySQL提供
数据
的模式
、
、
我有一个“无所不包”的服务器,它是were服务器,mysql,
爬虫
服务器。由于使用监视工具的两三周时间,我发现当我的
爬虫
运行时,我的平均负载总是超过5(一个4核心服务器,可以一直使用到4.00作为负载)。所以,我有另一台服务器,我想把我的
爬虫
移到那里。我的问题是。一旦我在我的
爬虫
服务器中爬行
数据
,我必须插入我的
数据
库。我不想打开远程连接并将其插入
数据
库中,因为我更喜欢使用Rails框架,顺便说一句,我使用rails,以便更容易地创建所有关系,等等。限制:我不想运行mys
浏览 2
提问于2011-05-01
得票数 0
1
回答
如何
分析
网页
爬虫
?
、
我有一个稍微不同的版本的网络
爬虫
。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择: 同时运行它们,比较所用的时间。
浏览 4
提问于2012-09-15
得票数 0
1
回答
用于开源Lucene的索引序列步骤,使用SQL或Nosql
、
、
我想用Lucene.net来索引我网站上的
数据
和页面链接,你到底是什么时候告诉Lucene.Net开始索引的?
浏览 6
提问于2011-02-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java 爬虫遇上数据异步加载
Python 从爬虫到数据分析(二)爬虫原理
Python爬虫数据分析的基本概念
Java毕业设计基于网络爬虫的网络新闻分析参考
【Java爬虫】测测面相
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券