java动态爬数据库_java动态爬数据_爬数据 java - 腾讯云开发者社区

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

1回答

Google Search Appliance索引数据库中的内容

、

而不是使用google搜索设备爬虫来索引内容，而是使用对sql服务器数据库的查询。

浏览 0提问于2010-02-09得票数 1

回答已采纳

1回答

是否可以使用触发器创建列？

、、、

作为实体-属性-值或键-值对表等反模式的替代方案，是否可以通过参数表上的INSERT触发器将列动态添加到数据表中？它还允许用户添加新参数来动态挖掘，而不必与SQL打交道。这个是可能的吗？如果是这样的话，你会怎么做呢？

浏览 1提问于2012-12-20得票数 0

回答已采纳

1回答

Solr 5.0和Nutch 1.10

、

我发出的命令如下：据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这比预期的要少得多。当我发出这个命令将数据传递给Solr时：然后执行搜索，那么我总共只得到了20个url。

浏览 0提问于2015-06-03得票数 0

1回答

如何使用Apache Nutch抓取ajax网站？

我想爬这个网站：使用Apache。该网页动态加载ajax内容。如果我用默认配置爬行它，Nutch只会带来头和页脚，动态加载的内容就会丢失。我用的是Nutch 1.14。

浏览 0提问于2018-06-08得票数 0

回答已采纳

2回答

ubuntu 12.04的Nutch 1.9中出现问题。我正在尝试抓取一个网站上的链接。我已经给了seed.txt文件中的网站网址。除了http.agent.name (新建)属性和db.max.outlinks.per.page (-1)之外，我没有对默认配置进行任何更改。我正在使用以下命令进行爬行Crawler应该抓取深度为3的所有可用链接。但当我运行以下linkdb命令时，只有5个链接可用。所有这五个链接都可以在主页上找到 nutch readlinkdb test/linkdb -dump myoutput/out1<br/&g

浏览 1提问于2014-11-03得票数 0

1回答

Selenium:如何检查当前窗口(句柄)是否对焦？

、、、

我的问题是，我想爬一个非常现代的，动态的网页。我注意到，有些元素不仅仅是动态加载的，它们只在窗口处于焦点(前景)时才被加载！如何检查web驱动程序窗口“焦点”所在的Selenium？

浏览 7提问于2022-02-21得票数 1

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

5)请解释我一个步骤，如果可能的话，我如何爬行一些网站，并将其信息保存到数据库(Hadoop或任何其他)，然后做搜索。提前说一声非常感谢。

浏览 2提问于2012-09-06得票数 3

1回答

Nutch爬网在多次迭代后失败，并出现运行时异常

、、

正在执行深度为200的爬网命令。但在几次迭代之后，获取失败，并出现下面提到的运行时异常。java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large 爬网命令： /Data/Apache/apache-nutc

浏览 16提问于2019-01-22得票数 0

2回答

手动将项目添加到SharePoint Search索引

、、、

我正在寻找一种方法来添加一个文件到搜索索引使用API，因为和当文件被添加到文档库。谢谢。

浏览 0提问于2011-07-14得票数 2

1回答

以编程方式设置CrawlProperty“包含在索引中”值(SharePoint2007)

、、、、

我有我的爬网属性和我的托管属性，以及它们之间的映射。我也有动态属性，例如，用户可以将属性集更改为爬行，因此我在Sharepoint Central Administration运行时进行了更改。newMapping); mProp.EnabledForScoping = true;静态属性在安装时添加，动态属性在管理中心手动添加问题是爬网属性的Sharepoint标志“包含在索引中”的值。在这种情况下，安装完成后，对于所

浏览 0提问于2012-01-19得票数 1

回答已采纳

0回答

java怎样爬取js动态请求的数据？

、、

image.png 动态加载的数据获取不到（cd.fangfaxian.com）

浏览 224提问于2020-04-28

1回答

nutch + mysql集成

当nutch在索引阶段完成它的循环(即爬取-解析-索引)时，我不希望nutch索引(lucene索引)，但我希望nutch使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)

浏览 2提问于2010-07-12得票数 1

回答已采纳

1回答

是否有由翻查返回的错误和警告消息的列表？

我正在编写一个Java包装器，围绕着对翻盖扫描可执行文件的系统调用。举个例子，我见过扫描问题警告，比如.“警告：*病毒数据库已超过7天！” ...and错误，如.

浏览 0提问于2019-04-05得票数 1

2回答

Clojure网站到html和javascript？

、

问题是:有没有一种方法可以将一个用clojure编写的网站编译成HTML和Javascript文件，而不需要服务器上的.WAR文件？谢谢。

浏览 3提问于2013-02-14得票数 2

1回答

使用Apify抓取多个页面

、

可以使用带有伪URL的Apify抓取多个页面吗？当人们问同样的问题时，答案大多指向伪URL，如果有可能或不可能这样做，并不会直接解决问题。如果我在运行爬虫的时候不知道伪URL，并且我从一个页面上抓取了10个链接-然后想要抓取这10个链接，那怎么做呢？ https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

浏览 15提问于2019-03-19得票数 0

2回答

访问通过web crawler存储的.lck和jdb文件

、、、

有没有人能帮我了解如何访问这些数据，这样我才能成功地将数据存入数据库，并最终显示在我的网站上。我会非常感激的。

浏览 1提问于2012-09-23得票数 0

1回答

使用apache nutch 2.2.1

、、、、

我正在尝试开始我的第一次爬网，我已经配置了数据库设置，并执行了以下命令：bin/nutch inject urlsInjectorJob: starting at 2014-07-18InjectorJob: java.lang.RuntimeException: job failed: name=inject urls, jobid=job_local1172062909_0001(InjectorJob.java:233) at org.apache.nutch.crawl.

浏览 5提问于2014-07-18得票数 1

点击加载更多