爬数据 java - 腾讯云开发者社区

、、、

我已经开始爬行了，我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据问题是，我能找到的唯一信息是两个.lck文件和一个crawlStorageFolder位置的.jdb文件，我假设这是数据存储的位置有没有人能帮我了解如何访问这些数据，这样我才能成功地将数据</em

浏览 1提问于2012-09-23得票数 0

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

1回答

什么是.lck文件?为什么我不能用缓冲阅读器读取它？

、、、、

我正在尝试使用crawler4j抓取网站。我能够按照crawler4j网站上的说明进行操作。完成后，它会创建一个包含两个不同.lck文件的文件夹，一个是.jdb文件，另一个是.info.0文件。我也了几个月前问过同样问题的其他人。他们从来没有得到过答案。

浏览 2提问于2013-03-27得票数 0

回答已采纳

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

1回答

怎样在不使用API的前提下爬取Twitter数据？

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 705提问于2024-01-06

1回答

Solr 5.0和Nutch 1.10

、

我发出的命令如下：据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这比预期的要少得多。当我发出这个命令将数据传递给Solr时：然后执行搜索，那么我总共只得到了20个url。

浏览 0提问于2015-06-03得票数 0

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

1回答

正在执行深度为200的爬网命令。但在几次迭代之后，获取失败，并出现下面提到的运行时异常。java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large 爬网命令： /Data/Apache/apache-nutc

浏览 16提问于2019-01-22得票数 0

3回答

简单的Nutch 1.3/Solr索引说明

、

经过大量搜索，似乎没有任何简单的解释来说明如何在Solr中使用Nutch 1.3。我想将Nutch结果添加到索引中，这将把外部网站添加到网站搜索中。问题是，如何刷新索引？你必须先从Solr中删除所有的Nutch结果吗？或者Nutch会处理这件事？Nutch是否从Solr索引中删除不再有效的结果？

浏览 2提问于2011-09-15得票数 1

回答已采纳

1回答

nutch + mysql集成

当nutch在索引阶段完成它的循环(即爬取-解析-索引)时，我不希望nutch索引(lucene索引)，但我希望nutch使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)

浏览 2提问于2010-07-12得票数 1

回答已采纳

1回答

Google Search Appliance索引数据库中的内容

、

而不是使用google搜索设备爬虫来索引内容，而是使用对sql服务器数据库的查询。您知道如何仅使用查询的数据创建新的集合吗？提前谢谢。诚挚的问候。何塞

浏览 0提问于2010-02-09得票数 1

回答已采纳

1回答

Sharepoint外部数据-多值字段

、、、、

我需要创建一个包含外部数据(来自BDC)的列表字段。该字段必须包含多个值。但是我没有找到一种方法来让外部数据字段接受多个值。通过从外部数据创建列，我不可能激活多值模式。有没有人知道如何处理这种情况？

浏览 2提问于2012-04-23得票数 1

2回答

手动将项目添加到SharePoint Search索引

、、、

我正在寻找一种方法来添加一个文件到搜索索引使用API，因为和当文件被添加到文档库。谢谢。

浏览 0提问于2011-07-14得票数 2

1回答

以编程方式触发AWS湖泊形成工作流

在文档中，我没有发现提到以编程方式触发工作流(例如，将数据从关系型数据库加载到S3中)。我也没有在AWS Lake find的API规范中找到任何东西。

浏览 39提问于2019-11-05得票数 0

回答已采纳

1回答

Manifoldcf文档爬行速度慢

、、、、

我们使用ManiFoldCF documentum连接器从DCTM存储库中抓取数据，并将抓取的数据写入MongoDB。使用节流值500触发了爬网。但是爬网速度非常慢，连接器每分钟只能提取170个文档。安装MCF的服务器配置有足够的内存和8个逻辑核心(CPU)。有人能帮我们提高爬行速度吗？

浏览 19提问于2019-01-16得票数 0

1回答

Nutch crawl命令

、、

对于Nutch 2.2.1，我知道有两个爬行命令- bin/nutch (step by step)，bin/crawl (全部在一起) 我知道如何为bin/crawl命令指定爬网ID。同样，如何为bin/nutch命令指定爬网ID？我问的原因是，我使用all-in-one crawl command "bin/crawl"运行了一个大型爬网作业，指定了一个爬网ID，它在Solr中索引第9次爬行迭代时崩溃了。我将所有的抓取数据存储在一个

浏览 1提问于2013-10-25得票数 1

1回答

为什么我的Apache Nutch warc和commoncrawldump在抓取后失败？

、、、

我已经成功地使用Nutch抓取了一个网站，现在我想从结果中创建一个warc。但是，同时运行warc和commoncrawldump命令会失败。此外，在相同的段文件夹上成功运行bin/nutch dump -segement ....。我正在使用nutch v-1.17并运行： bin/nutch commoncrawldump -outputDir output/ -segment crawl/segments 来自hadoop.log的错误是ERROR tools.CommonCrawlDataDumper - No segment directories found in my/pat

浏览 34提问于2020-09-15得票数 1

回答已采纳

1回答

Nutch API建议

、、

我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

映射Open search服务器中的值

、

我有一个数据库的一些数据，如网址，ip，国家，州等。假设我有一个url 和美国国家，我需要用抓取的数据来映射这个国家。我尝试了数据库爬虫，它是非常慢的.Because我有500万的网址。提前谢谢。

浏览 3提问于2012-12-22得票数 0

1回答

在SharePoint爬网期间以编程方式生成其他属性

、、、、

是否有可能挂钩到MOSS 2007爬网进程，并在内容被索引时以编程方式填充元数据属性？我需要在爬网时这样做的原因是，内容来自SharePoint外部(来自文件共享)，因此我不能将元数据直接添加到文档本身。有各种各样不同的文档类型，所以定制的IFilter也不是一种选择。

浏览 1提问于2010-06-25得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

访问通过web crawler存储的.lck和jdb文件

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

什么是.lck文件?为什么我不能用缓冲阅读器读取它？

当添加新页面时，Nutch会自动抓取我的站点吗？

怎样在不使用API的前提下爬取Twitter数据？

Solr 5.0和Nutch 1.10

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

Nutch爬网在多次迭代后失败，并出现运行时异常

简单的Nutch 1.3/Solr索引说明

nutch + mysql集成

Google Search Appliance索引数据库中的内容

Sharepoint外部数据-多值字段

手动将项目添加到SharePoint Search索引

以编程方式触发AWS湖泊形成工作流

Manifoldcf文档爬行速度慢

Nutch crawl命令

为什么我的Apache Nutch warc和commoncrawldump在抓取后失败？

Nutch API建议

映射Open search服务器中的值

在SharePoint爬网期间以编程方式生成其他属性

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐