java爬数据工具_数据爬取工具_爬数据 java - 腾讯云开发者社区

、、、

我已经开始爬行了，我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据问题是，我能找到的唯一信息是两个.lck文件和一个crawlStorageFolder位置的.jdb文件，我假设这是数据存储的位置有没有人能帮我了解如何访问这些数据，这样我才能成功地将数据</em

浏览 1提问于2012-09-23得票数 0

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

3回答

大规模机器学习- Python还是Java？

、、、、

我目前正在着手一个项目，该项目将涉及爬取和处理大量数据(数百个数据集)，并对它们进行挖掘以提取结构化数据，命名实体识别，重复数据删除，分类等。我熟悉来自Java和Python世界的ML工具: Lingpipe、Mahout、NLTK等。然而，当涉及到为如此大规模的问题选择平台时-我缺乏足够的经验来决定是Java还是Python。我知道这听起来像是一个模糊的问题，但我正在寻找关于选择Java或Python的一般建议。JVM提供了更好的性

浏览 6提问于2012-03-15得票数 34

回答已采纳

1回答

什么是.lck文件?为什么我不能用缓冲阅读器读取它？

、、、、

我正在尝试使用crawler4j抓取网站。我能够按照crawler4j网站上的说明进行操作。完成后，它会创建一个包含两个不同.lck文件的文件夹，一个是.jdb文件，另一个是.info.0文件。我也了几个月前问过同样问题的其他人。他们从来没有得到过答案。

浏览 2提问于2013-03-27得票数 0

回答已采纳

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

4回答

将asp.net动态站点转换为静态站点的工具

、

有没有什么工具可以爬取asp.net网站并创建一个静态站点？

浏览 2提问于2008-09-04得票数 0

回答已采纳

1回答

怎样在不使用API的前提下爬取Twitter数据？

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 504提问于2024-01-06

1回答

GSA数据库馈送选择性重新抓取立即

我有一个数据库连接到GSA。我的系统有一些事件，我知道这些事件会改变一些记录的值。我想通过API或命令行工具在GSA中为那些选定的记录启动立即重新爬网。致敬，杨凯文

浏览 0提问于2015-05-21得票数 0

1回答

Solr 5.0和Nutch 1.10

、

我发出的命令如下：据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这比预期的要少得多。当我发出这个命令将数据传递给Solr时：然后执行搜索，那么我总共只得到了20个url。

浏览 0提问于2015-06-03得票数 0

1回答

google web master工具是用来做什么的?它与google analytics相比有何不同？

、

有谁知道谷歌网站管理员工具提供了什么，我有谷歌分析，我刚刚意识到我可以注册谷歌网站管理员工具。不确定它是否值得。欢迎任何反馈

浏览 0提问于2010-03-19得票数 0

回答已采纳

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

20回答

数据挖掘开源工具

、

我将从事一个数据挖掘的项目。在我开始之前，我想探索一下不同的数据挖掘工具(最好是开源的)，它们允许基于web的报告。在我的场景中，数据将被提供给我，所以我不应该爬取它。简而言之，我正在寻找一个工具，它做-数据分析，基于网络的报告，提供了某种仪表板和挖掘功能。请在你所知道的任何这样的工具上分享你的经验。干杯

浏览 1提问于2009-05-07得票数 27

1回答

彬博特在请求stange中，无效的URL

、、

我有奇怪的URL让Bing想爬。当彬博特请求这些URL时，Umbraco会抛出异常。Bing似乎认为这些是有效的URL，但是URL并不存在。必应网站管理员工具截图：如何从必应网站管理员工具中删除此bug？

浏览 0提问于2016-09-02得票数 1

0回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 109提问于2021-09-28

1回答

Nutch爬网在多次迭代后失败，并出现运行时异常

、、

正在执行深度为200的爬网命令。但在几次迭代之后，获取失败，并出现下面提到的运行时异常。java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large 爬网命令： /Data/Apache/apache-nutc

浏览 16提问于2019-01-22得票数 0

3回答

简单的Nutch 1.3/Solr索引说明

、

经过大量搜索，似乎没有任何简单的解释来说明如何在Solr中使用Nutch 1.3。我想将Nutch结果添加到索引中，这将把外部网站添加到网站搜索中。问题是，如何刷新索引？你必须先从Solr中删除所有的Nutch结果吗？或者Nutch会处理这件事？Nutch是否从Solr索引中删除不再有效的结果？

浏览 2提问于2011-09-15得票数 1

回答已采纳

6回答

如何防止Googlebot淹没网站？

、

我在一个中间的专用服务器上运行一个内容很多但流量很少的网站。我怎样才能避免这种情况？

浏览 2提问于2009-08-25得票数 11

回答已采纳

1回答

使用网站管理员工具仅获取100个抓取问题

我正在使用Feed crawlIssues = wtr.GetCrawlIssues(encodedSiteID)；从我的网站管理员工具帐户获取爬网错误。

浏览 1提问于2013-02-16得票数 2

1回答

nutch + mysql集成

当nutch在索引阶段完成它的循环(即爬取-解析-索引)时，我不希望nutch索引(lucene索引)，但我希望nutch使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)

浏览 2提问于2010-07-12得票数 1

回答已采纳

1回答

Google Search Appliance索引数据库中的内容

、

而不是使用google搜索设备爬虫来索引内容，而是使用对sql服务器数据库的查询。您知道如何仅使用查询的数据创建新的集合吗？提前谢谢。诚挚的问候。何塞

浏览 0提问于2010-02-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

访问通过web crawler存储的.lck和jdb文件

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

大规模机器学习- Python还是Java？

什么是.lck文件?为什么我不能用缓冲阅读器读取它？

当添加新页面时，Nutch会自动抓取我的站点吗？

将asp.net动态站点转换为静态站点的工具

怎样在不使用API的前提下爬取Twitter数据？

GSA数据库馈送选择性重新抓取立即

Solr 5.0和Nutch 1.10

google web master工具是用来做什么的?它与google analytics相比有何不同？

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

数据挖掘开源工具

彬博特在请求stange中，无效的URL

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

Nutch爬网在多次迭代后失败，并出现运行时异常

简单的Nutch 1.3/Solr索引说明

如何防止Googlebot淹没网站？

使用网站管理员工具仅获取100个抓取问题

nutch + mysql集成

Google Search Appliance索引数据库中的内容

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐