腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
访问通过web crawler存储的.lck和jdb文件
、
、
、
我已经开始爬行了,我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的
数据
问题是,我能找到的唯一信息是两个.lck文件和一个crawlStorageFolder位置的.jdb文件,我假设这是
数据
存储的位置有没有人能帮我了解如何访问这些
数据
,这样我才能成功地将
数据</em
浏览 1
提问于2012-09-23
得票数 0
1
回答
SharePoint2010 search中的索引
数据
库和属性
数据
库有什么不同?
、
SharePoint2010 search中的索引
数据
库和属性
数据
库有什么不同?
浏览 5
提问于2011-02-15
得票数 0
回答已采纳
3
回答
大规模机器学习- Python还是
Java
?
、
、
、
、
我目前正在着手一个项目,该项目将涉及
爬
取和处理大量
数据
(数百个
数据
集),并对它们进行挖掘以提取结构化
数据
,命名实体识别,重复
数据
删除,分类等。我熟悉来自
Java
和Python世界的ML
工具
: Lingpipe、Mahout、NLTK等。然而,当涉及到为如此大规模的问题选择平台时-我缺乏足够的经验来决定是
Java
还是Python。我知道这听起来像是一个模糊的问题,但我正在寻找关于选择
Java
或Python的一般建议。JVM提供了更好的性
浏览 6
提问于2012-03-15
得票数 34
回答已采纳
1
回答
什么是.lck文件?为什么我不能用缓冲阅读器读取它?
、
、
、
、
我正在尝试使用crawler4j抓取网站。我能够按照crawler4j网站上的说明进行操作。完成后,它会创建一个包含两个不同.lck文件的文件夹,一个是.jdb文件,另一个是.info.0文件。我也了几个月前问过同样问题的其他人。他们从来没有得到过答案。
浏览 2
提问于2013-03-27
得票数 0
回答已采纳
3
回答
当添加新页面时,Nutch会自动抓取我的站点吗?
当我向网站添加新页面时,会自动
爬
网吗?
浏览 4
提问于2009-11-25
得票数 0
4
回答
将asp.net动态站点转换为静态站点的
工具
、
有没有什么
工具
可以
爬
取asp.net网站并创建一个静态站点?
浏览 2
提问于2008-09-04
得票数 0
回答已采纳
1
回答
怎样在不使用API的前提下
爬
取Twitter
数据
?
、
、
、
、
由于现在Twitter API
数据
爬
取付费,所以我想在不使用Twitter API的情况下使用python
爬
取到特定关键词的Twitter
数据
或者Reddit
数据
,有什么好办法吗?
浏览 504
提问于2024-01-06
1
回答
GSA
数据
库馈送选择性重新抓取立即
我有一个
数据
库连接到GSA。我的系统有一些事件,我知道这些事件会改变一些记录的值。我想通过API或命令行
工具
在GSA中为那些选定的记录启动立即重新
爬
网。致敬,杨凯文
浏览 0
提问于2015-05-21
得票数 0
1
回答
Solr 5.0和Nutch 1.10
、
我发出的命令如下:据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这比预期的要少得多。当我发出这个命令将
数据
传递给Solr时:然后执行搜索,那么我总共只得到了20个url。
浏览 0
提问于2015-06-03
得票数 0
1
回答
google web master
工具
是用来做什么的?它与google analytics相比有何不同?
、
有谁知道谷歌网站管理员
工具
提供了什么,我有谷歌分析,我刚刚意识到我可以注册谷歌网站管理员
工具
。不确定它是否值得。欢迎任何反馈
浏览 0
提问于2010-03-19
得票数 0
回答已采纳
1
回答
即使网址从seed.txt中删除,网站也会被爬行(Nutch2.1)
、
我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL
数据
库中看到爬行的
数据
。我尝试检查隐藏的种子文件,但没有找到,并且在我运行
爬
网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?
浏览 1
提问于2013-04-17
得票数 1
20
回答
数据
挖掘开源
工具
、
我将从事一个
数据
挖掘的项目。在我开始之前,我想探索一下不同的
数据
挖掘
工具
(最好是开源的),它们允许基于web的报告。在我的场景中,
数据
将被提供给我,所以我不应该
爬
取它。简而言之,我正在寻找一个
工具
,它做-
数据
分析,基于网络的报告,提供了某种仪表板和挖掘功能。请在你所知道的任何这样的
工具
上分享你的经验。 干杯
浏览 1
提问于2009-05-07
得票数 27
1
回答
彬博特在请求stange中,无效的URL
、
、
我有奇怪的URL让Bing想
爬
。当彬博特请求这些URL时,Umbraco会抛出异常。Bing似乎认为这些是有效的URL,但是URL并不存在。必应网站管理员
工具
截图:如何从必应网站管理员
工具
中删除此bug?
浏览 0
提问于2016-09-02
得票数 1
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
比如,用huginn
爬
网这个链接: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取。而在同一台机器上用 下载
工具
甚至简单的脚本下载这个链接的网页内容,却可以实现,不知道是什么情况。
浏览 109
提问于2021-09-28
1
回答
Nutch
爬
网在多次迭代后失败,并出现运行时异常
、
、
正在执行深度为200的
爬
网命令。但在几次迭代之后,获取失败,并出现下面提到的运行时异常。
java
.lang.RuntimeException:
java
.lang.IllegalArgumentException: KeyValue size too large Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large
爬
网命令: /Data/Apache/apache-nutc
浏览 16
提问于2019-01-22
得票数 0
3
回答
简单的Nutch 1.3/Solr索引说明
、
经过大量搜索,似乎没有任何简单的解释来说明如何在Solr中使用Nutch 1.3。我想将Nutch结果添加到索引中,这将把外部网站添加到网站搜索中。问题是,如何刷新索引?你必须先从Solr中删除所有的Nutch结果吗?或者Nutch会处理这件事?Nutch是否从Solr索引中删除不再有效的结果?
浏览 2
提问于2011-09-15
得票数 1
回答已采纳
6
回答
如何防止Googlebot淹没网站?
、
我在一个中间的专用服务器上运行一个内容很多但流量很少的网站。我怎样才能避免这种情况?
浏览 2
提问于2009-08-25
得票数 11
回答已采纳
1
回答
使用网站管理员
工具
仅获取100个抓取问题
我正在使用Feed crawlIssues = wtr.GetCrawlIssues(encodedSiteID);从我的网站管理员
工具
帐户获取
爬
网错误。
浏览 1
提问于2013-02-16
得票数 2
1
回答
nutch + mysql集成
当nutch在索引阶段完成它的循环(即
爬
取-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch使用我的代码将所有抓取的
数据
(我相信他将它们作为NutchDocument对象)
浏览 2
提问于2010-07-12
得票数 1
回答已采纳
1
回答
Google Search Appliance索引
数据
库中的内容
、
而不是使用google搜索设备爬虫来索引内容,而是使用对sql服务器
数据
库的查询。您知道如何仅使用查询的
数据
创建新的集合吗? 提前谢谢。诚挚的问候。何塞
浏览 0
提问于2010-02-09
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java使用WebMagic 爬取网站
抖音大数据,教你爬爬爬!
Java 编写的开源数据挖掘工具——KEEL
淘宝数据爬取
java常用分析工具
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券