腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
访问通过web crawler存储的.lck和jdb文件
java
、
parsing
、
web-crawler
、
crawler4j
我已经开始爬行了,我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的
数据
问题是,我能找到的唯一信息是两个.lck文件和一个crawlStorageFolder位置的.jdb文件,我假设这是
数据
存储的位置有没有人能帮我了解如何访问这些
数据
,这样我才能成功地将
数据</em
浏览 1
提问于2012-09-23
得票数 0
1
回答
SharePoint2010 search中的索引
数据
库和属性
数据
库有什么不同?
search
、
sharepoint-2010
SharePoint2010 search中的索引
数据
库和属性
数据
库有什么不同?
浏览 5
提问于2011-02-15
得票数 0
回答已采纳
3
回答
大规模机器学习- Python还是
Java
?
java
、
python
、
machine-learning
、
nltk
、
mahout
我目前正在着手一个项目,该项目将涉及
爬
取和处理大量
数据
(数百个
数据
集),并对它们进行挖掘以提取结构化
数据
,命名实体识别,重复
数据
删除,分类等。我熟悉来自
Java
和Python世界的ML
工具
: Lingpipe、Mahout、NLTK等。然而,当涉及到为如此大规模的问题选择平台时-我缺乏足够的经验来决定是
Java
还是Python。我知道这听起来像是一个模糊的问题,但我正在寻找关于选择
Java
或Python的一般建议。JVM提供了更好的性
浏览 6
提问于2012-03-15
得票数 34
回答已采纳
1
回答
什么是.lck文件?为什么我不能用缓冲阅读器读取它?
java
、
parsing
、
file-io
、
web-crawler
、
crawler4j
我正在尝试使用crawler4j抓取网站。我能够按照crawler4j网站上的说明进行操作。完成后,它会创建一个包含两个不同.lck文件的文件夹,一个是.jdb文件,另一个是.info.0文件。我也了几个月前问过同样问题的其他人。他们从来没有得到过答案。
浏览 2
提问于2013-03-27
得票数 0
回答已采纳
3
回答
当添加新页面时,Nutch会自动抓取我的站点吗?
nutch
当我向网站添加新页面时,会自动
爬
网吗?
浏览 4
提问于2009-11-25
得票数 0
4
回答
将asp.net动态站点转换为静态站点的
工具
asp.net
、
web-crawler
有没有什么
工具
可以
爬
取asp.net网站并创建一个静态站点?
浏览 2
提问于2008-09-04
得票数 0
回答已采纳
1
回答
怎样在不使用API的前提下
爬
取Twitter
数据
?
数据挖掘
、
python
、
api
、
twitter
、
数据
由于现在Twitter API
数据
爬
取付费,所以我想在不使用Twitter API的情况下使用python
爬
取到特定关键词的Twitter
数据
或者Reddit
数据
,有什么好办法吗?
浏览 210
提问于2024-01-06
1
回答
GSA
数据
库馈送选择性重新抓取立即
google-search-appliance
我有一个
数据
库连接到GSA。我的系统有一些事件,我知道这些事件会改变一些记录的值。我想通过API或命令行
工具
在GSA中为那些选定的记录启动立即重新
爬
网。致敬,杨凯文
浏览 0
提问于2015-05-21
得票数 0
1
回答
Solr 5.0和Nutch 1.10
solr
、
nutch
我发出的命令如下:据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这比预期的要少得多。当我发出这个命令将
数据
传递给Solr时:然后执行搜索,那么我总共只得到了20个url。
浏览 0
提问于2015-06-03
得票数 0
1
回答
google web master
工具
是用来做什么的?它与google analytics相比有何不同?
google-analytics
、
google-search-console
有谁知道谷歌网站管理员
工具
提供了什么,我有谷歌分析,我刚刚意识到我可以注册谷歌网站管理员
工具
。不确定它是否值得。欢迎任何反馈
浏览 0
提问于2010-03-19
得票数 0
回答已采纳
1
回答
即使网址从seed.txt中删除,网站也会被爬行(Nutch2.1)
nutch
、
web-crawler
我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL
数据
库中看到爬行的
数据
。我尝试检查隐藏的种子文件,但没有找到,并且在我运行
爬
网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?
浏览 1
提问于2013-04-17
得票数 1
20
回答
数据
挖掘开源
工具
open-source
、
data-mining
我将从事一个
数据
挖掘的项目。在我开始之前,我想探索一下不同的
数据
挖掘
工具
(最好是开源的),它们允许基于web的报告。在我的场景中,
数据
将被提供给我,所以我不应该
爬
取它。简而言之,我正在寻找一个
工具
,它做-
数据
分析,基于网络的报告,提供了某种仪表板和挖掘功能。请在你所知道的任何这样的
工具
上分享你的经验。 干杯
浏览 1
提问于2009-05-07
得票数 27
1
回答
彬博特在请求stange中,无效的URL
bing
、
bing-webmaster-tools
、
bingbot
我有奇怪的URL让Bing想
爬
。当彬博特请求这些URL时,Umbraco会抛出异常。Bing似乎认为这些是有效的URL,但是URL并不存在。必应网站管理员
工具
截图:如何从必应网站管理员
工具
中删除此bug?
浏览 0
提问于2016-09-02
得票数 1
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
tcp/ip
比如,用huginn
爬
网这个链接: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取。而在同一台机器上用 下载
工具
甚至简单的脚本下载这个链接的网页内容,却可以实现,不知道是什么情况。
浏览 86
提问于2021-09-28
1
回答
Nutch
爬
网在多次迭代后失败,并出现运行时异常
web-crawler
、
nutch
、
depth
正在执行深度为200的
爬
网命令。但在几次迭代之后,获取失败,并出现下面提到的运行时异常。
java
.lang.RuntimeException:
java
.lang.IllegalArgumentException: KeyValue size too large Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large
爬
网命令: /Data/Apache/apache-nutc
浏览 16
提问于2019-01-22
得票数 0
3
回答
简单的Nutch 1.3/Solr索引说明
solr
、
nutch
经过大量搜索,似乎没有任何简单的解释来说明如何在Solr中使用Nutch 1.3。我想将Nutch结果添加到索引中,这将把外部网站添加到网站搜索中。问题是,如何刷新索引?你必须先从Solr中删除所有的Nutch结果吗?或者Nutch会处理这件事?Nutch是否从Solr索引中删除不再有效的结果?
浏览 2
提问于2011-09-15
得票数 1
回答已采纳
6
回答
如何防止Googlebot淹没网站?
performance
、
googlebot
我在一个中间的专用服务器上运行一个内容很多但流量很少的网站。我怎样才能避免这种情况?
浏览 2
提问于2009-08-25
得票数 11
回答已采纳
1
回答
使用网站管理员
工具
仅获取100个抓取问题
google-search-console
我正在使用Feed crawlIssues = wtr.GetCrawlIssues(encodedSiteID);从我的网站管理员
工具
帐户获取
爬
网错误。
浏览 1
提问于2013-02-16
得票数 2
1
回答
nutch + mysql集成
nutch
当nutch在索引阶段完成它的循环(即
爬
取-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch使用我的代码将所有抓取的
数据
(我相信他将它们作为NutchDocument对象)
浏览 2
提问于2010-07-12
得票数 1
回答已采纳
1
回答
Google Search Appliance索引
数据
库中的内容
search
、
google-search-appliance
而不是使用google搜索设备爬虫来索引内容,而是使用对sql服务器
数据
库的查询。您知道如何仅使用查询的
数据
创建新的集合吗? 提前谢谢。诚挚的问候。何塞
浏览 0
提问于2010-02-09
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java使用WebMagic 爬取网站
抖音大数据,教你爬爬爬!
Java 编写的开源数据挖掘工具——KEEL
淘宝数据爬取
java常用分析工具
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券