java 网络爬文档_java爬取网络数据_python爬文档 - 腾讯云开发者社区

、

我正在寻找一些健壮的，良好记录的PHP网络爬虫脚本。也许是Java项目的一个port - 我正在寻找免费和非免费的版本。

浏览 2提问于2011-01-30得票数 9

回答已采纳

1回答

用Java在分布式体系结构上实现Web爬虫

、、、

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。谁能提供一些见解，说明哪种体系结构是最好的，以及我如何用Java实现它？

浏览 0提问于2013-02-26得票数 0

1回答

我使用apache-nutch-crawler1.6进行爬行。在爬行之后，当我尝试使用命令读取爬行结果的内容时 bin/nutch readseg -dump crawl/segments/* segmentAllContent 错误是 Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/ubuntu/nutch/framework/apache-nutch-1.6/blogs/segments/20

浏览 0提问于2013-06-21得票数 1

1回答

如何实现将索引表分布在3个系统上的任务？

、、

我想要达到这样的效果给定一个文档，比如一个带有id的txt文件，我需要对其进行处理，根据单词进行词干提取，并从中生成索引表。但是这个索引表可能分布在3个系统上，可能是基于这样的标准:以字母a-h开头的单词在第一个系统上被索引，下一个三分之一在第二个系统上，最后三分之一在第三个系统上。但是我不知道我应该使用什么技术来实现这一点？索引表数据结构应该在RAM中，以便可以快速回答搜索查询(假设我们能够以这种方式对其进行索引，并让用户搜索来自不同系统的单词或句子)。这个目的可以通过使用JAVA Sockets来实现吗？实际上，我们(5人组)正在尝试制作一个小型但分布式的搜索引擎。假设爬行已经完成，页

浏览 1提问于2014-08-23得票数 0

1回答

Sharepoint Search 2013 -有没有办法为存储在数据库中的URL列表编制索引？

、、、

我有一个数据库表，其中包含我希望Sharepoint Search 2013索引的URL列表，以便它们显示在搜索结果中-这些URL是各种内容类型的混合-网页、Word文档、PDF等。所有的URL都在我的网络内部，但不是Sharepoint页面或存储在Sharepoint中的文件。我在Windows2008 R2服务器上使用Sharepoint 2013企业搜索。有没有人对如何实现这一点有什么想法？我已经搜索了选项，但似乎找不到任何相关的东西- BDC和BCS已经出现了很多，但似乎更多的是连接器返回的索引内容。我想要做的是使用从表返回的数据作为指向要建立索引的项的指针。我对Sharep

浏览 6提问于2014-09-02得票数 0

1回答

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

、、

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

浏览 1提问于2011-02-13得票数 4

回答已采纳

1回答

SharePoint 2010中元数据属性映射中缺少ows_editior

、、

我正在尝试将托管属性映射到文档库的Modified By字段。我可以看到该字段的内部名称是Editor。但我在爬网属性中找不到ows_editor。有没有办法将其添加到爬网属性中，以及如何添加？

浏览 2提问于2011-02-14得票数 0

1回答

无法在Sharepoint 2013的搜索中搜索我的文档

、

我将一些子网站移到了我的新网站集中。我无法通过搜索框搜索我的文档。我启用了所有设置来搜索，但仍然无法搜索。我该如何解决这个问题？

浏览 0提问于2016-11-16得票数 1

1回答

Apache Nutch Hadoop集成

、、

我将apache-nutch-1.15和hadoop配置为按照https://wiki.apache.org/nutch/NutchHadoopTutorial提供的链接在部署模式下运行但是当我尝试运行下面的命令时 hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5 我得到了以下异常 Exception in thread "main" java.lang.ClassNotFoundException: org.apache.

浏览 28提问于2019-03-13得票数 2

2回答

访问通过web crawler存储的.lck和jdb文件

、、、

我目前使用作为我的网络爬虫的选择，我试图自学网络爬虫是如何工作的。我已经开始爬行了，我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据 public class Controller { public static void main(String[] args) throws Exception { /* * crawlStorageFolder is a folder where intermediate crawl data is

浏览 1提问于2012-09-23得票数 0

2回答

将数据发送到Solr时Nutch作业失败

、、

我一直在尝试各种方法，但都没有效果。我的Nutch/Solr配置基于以下内容：现在我已经启动并运行了Nutch和Solr，我想使用Solr来索引爬行数据。Nutch成功地抓取了我指定的域，但是当我运行命令将该数据传递给Solr时，Nutch失败了。下面是命令： bin/nutch solrindex http://solr:8181/solr/ crawl/crawldb crawl/linkdb crawl/segments/* 下面是输出： Indexer: starting at 2013-09-12 10:34:43 Indexer: deleting gone documents

浏览 2提问于2013-09-12得票数 2

1回答

Sharepoint:仅从一个库的搜索结果中删除描述文本

、、

我需要能够删除搜索结果中显示索引文档的一部分的描述文本，但是我希望这只影响单个库的文档(或子站点)。用这种方式本地化这样的东西是可能的吗？通过XSLT，或sp对象模型，或自定义修剪或任何..也许以某种方式截取索引查询结果，剥离相关文本，然后传递它。一个几乎行得通的想法是将srch-description div封装在核心web部件的XSLT中的if语句中，该语句检查项目的url是否包含我的库的名称，但是这个xslt更改必须进入任何搜索我的库的站点，而这是不可能的。我想知道我是否可以做更多的事情来删除srch-description或将其与我的项目解耦。

浏览 1提问于2010-12-24得票数 0

回答已采纳

3回答

关于Google搜索设备的爬网urls

、、、

我们有一个需求，我们需要抓取一组特定的URL。比方说，我们有site abc.com。我们需要抓取abc.com/test/ need --在“need”文件夹下匹配此模式的所有URL。但我们不想抓取abc.com/test/下的其余URL。我猜这将使用RegEx来完成。关于RegEx，有人能帮我吗？

浏览 2提问于2014-06-05得票数 0

1回答

网络爬虫文件扩展名处理

、、

我正在用nodejs开发一个网络爬虫。我在网站爬行体中创建了一个独特的urls列表。但也有一些扩展像jpg，mp3，mpeg .我想避免爬那些有扩展的人。有什么简单的方法吗？

浏览 3提问于2015-10-14得票数 0

回答已采纳

1回答

抓取速度较慢(60页/分钟)

、、、

我遇到了抓取速度慢的scrapy (大约1页/秒)。我正在从aws服务器上抓取一个主要网站，所以我不认为这是一个网络问题。Cpu利用率远远不到100，如果我启动多个抓取进程，爬行速度会快得多。 Scrapy似乎爬行了一大堆页面，然后挂起了几秒钟，然后重复。我已经尝试过了: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500 但这似乎并不能真正使指针超过20。

浏览 0提问于2012-11-22得票数 8

1回答

Sharepoint2010搜索服务

、、、

如何在sharepoint 2010搜索服务爬网中创建和配置内容源以查找word文档中的文本？

浏览 5提问于2011-08-23得票数 0

2回答

Scala:向下转换抛出java.lang.ClassCastException

、、、

来自非Java背景的Scala给我带来了广泛的困难，包括这一点。 scala> class A defined class A scala> class B extends A defined class B scala> val a = new A a: A = A@2e893a4a scala> val b = new B b: B = B@3a47c130 scala> a.asInstanceOf[B] java.lang.ClassCastException: A cannot be cast to B ... scala>

浏览 0提问于2011-07-10得票数 1

回答已采纳

2回答

如何在GSA中获取索引的最新爬行日期？

在GSA中，在Index > Diagnostics > Index Diagnostics下，有一个"More information about this page“部分和一个"Last Modified”字段，我如何从搜索结果的XML输出中获得这个值？

浏览 5提问于2015-03-09得票数 0

2回答

Nutch路径错误

、、

你好，我在Ubuntu上安装了solr和nutch。我能够爬行和索引偶然，但不是所有的时间。我不断地收到这个路径错误，并且在网上找不到解决方案。通常，我会删除有错误的目录并重新运行，它会运行得很好。但我不想再这样做了。导致该错误的原因是什么？谢谢。 LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916 LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027

浏览 0提问于2011-10-28得票数 2

1回答

让Google知道生产、开发和测试环境之间区别的最好方法是什么？

、、

我们有三个域名非常接近重复的内容(Magento网站)。让我们称它们为production.com、development.com和staging.com。我在development.com和staging.com上有机器人无索引。我还启用了htpasswds。谷歌对这些域名的搜索显示，它们还没有被索引。然而，当我登录到该软件的后端时，我开始收到来自Chrome的网络钓鱼警告。我需要尽快停止这一切。如果警告扩散到前端，我们将看到相当严重的后果。最佳的行动方案是什么？

浏览 1提问于2013-12-07得票数 0

1回答

nutch crawler -如何设置每个主机的最大inlink数

、、、

如何设置每个主机要索引的最大页数？我不想索引所有百万页的网站，我只想索引前100000个找到的页面。

浏览 4提问于2010-10-06得票数 1

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

1回答

我应该使用哪个用户代理？

、、

我已经建立了一个网络爬虫，应该爬行我的客户网站每晚。我不希望我的请求出现在他们的Google分析中，那么我如何自动确保这一点？据我所知，我是通过用户代理指示请求来自爬虫的。那么，默认情况下，我应该使用哪个用户代理字符串来获得过滤掉我的请求的分析(这样客户就不需要从他们的报告中过滤掉请求)

浏览 2提问于2011-12-20得票数 1

1回答

Apache Nutch -路径问题

、、

我正在尝试设置Apache Nutch抓取URL，遵循指南。作为一个较老的指南(该指南适用于1.x版，我使用的是2.3版)，我对结构进行了必要的更改。但是，当我尝试运行爬网时，我得到以下错误： root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2 No SOLRURL specified. Skipping indexing. Injecting seed URLs /usr/local/nutch/framework/apache-nutch-2.3/src/

浏览 0提问于2015-11-15得票数 9

1回答

在给定的情况下到达第n级的方法

、

有n楼梯，一个站在最底层的人想爬到顶上。这个人一次可以爬一级或两层楼梯。现在，我想找到所需的可被给定的m个整除的最小步骤数。下面是我使用创建的java程序，用于打印可能的步骤： public static void main(String args[]) { int n = 10, m = 2; List<Integer> vals = new ArrayList<>(); Set<String> set = new TreeSet<>(Comparator.reverseOrder());

浏览 2提问于2020-04-30得票数 0

回答已采纳

1回答

为什么这个env对象的大小一直在增长？

、、、、

我已经在网络爬虫上工作了一段时间，想法很简单，我有一个包含网站列表的SQL表，我有许多线程从表中获取第一个网站并删除它，然后爬行它(以堆的方式)。代码有点太长了，所以我将尝试删除其中的一些部分： while(true){ if(!stopped){ System.gc(); Statement stmt; String scanned = "scanned"; if (!scan)scanned = "crawled"; Connection connection

浏览 13提问于2015-07-28得票数 0

1回答

谷歌网站地图和Robots.txt问题

、

在我们的网站上有一个网站地图网站管理员中心报告说，网站地图中的一些urls被我们的robots.txt屏蔽了，请看，！尽管这些urls在Robots.txt中并不是不允许的。还有其他类似的网址，例如，gamezebo.com/gamelinks出现在我们的网站地图中，但它被报告为“robots.txt限制的网址”。另外，我在站长中心有一个解析结果，上面写着：“第21行:爬行延迟: 10规则被Googlebot忽略”。什么意思？我很感谢你的帮助谢谢。

浏览 3提问于2009-09-28得票数 1

1回答

已暂停爬网问题的计划增量爬网行为

快速问一下，我错误地开始了对我的一个内容源的增量抓取。然后我暂停了它，这样它就不会影响用户了。它将在下一次计划的增量爬网时恢复还是需要手动恢复？

浏览 12提问于2019-12-20得票数 0

2回答

为什么Nutch认为它已经解析了所有段，而它没有呢？

、

我使用Nutch 1.6来抓取一些论坛，并用Solr 1.6.2对它们进行索引。我在Solr上运行了一个测试查询，令人惊讶的是只有几个结果。我担心Nutch的页面解析或Solr的索引存在问题。在四处窥探之后，我发现Nutch并没有解析它检索到的很多页面： bin/nutch readseg -list -dir crawl-mothering2/segments/ NAME GENERATED FETCHED PARSED 20130228001531 23 27 9 20130228003940 1430 1434 661

浏览 3提问于2013-03-21得票数 1

1回答

将nutch抓取的web数据存储到hdfs中

、、

我已经安装了Hadoop2.x和nutch 1.x。谁能指导我如何将nutch网络爬行数据存储到hdfs中？比如提供关于该配置的任何文档或任何链接。谢谢你们所有人。

浏览 0提问于2018-04-25得票数 0

6回答

重新定位Spyder窗格中的窗格

、

Python和Spyder新手。如何在Spyder中重新定位窗格。我在左上角设置了编辑器，在右上角设置了对象检查器，在左下角设置了ipython控制台。不知何故，我把它搞乱了，不知道如何重新定位它们。已经爬遍了网络，但没有找到joy。谢谢 jpl

浏览 4提问于2015-03-06得票数 23

2回答

将解析后的内容提交到ElasticSearch

、

我正在尝试在Elasticsearch中上传文件(.txt、.pdf)。Elasticsearch只接收json格式的内容。有没有办法直接发送解析后的内容(.pdf或.txt to String)，或者我必须将String解析成json文档才能将其发送到Elasticsearch。

浏览 0提问于2018-08-13得票数 0

2回答

获取爬行信息的SharePoint接口

、

我正在尝试创建一个自定义报告，它显示当前的爬网时间/持续时间，状态是完全爬网还是增量爬网。有谁知道我可以用什么API来获取这样的信息？

浏览 0提问于2009-06-01得票数 0

回答已采纳

1回答

在aws中扩展无服务器网络爬虫和搜索引擎

、、、

https://github.com/aws-samples/aws-step-functions-kendra-web-crawler-search-engine 我指的是上面的链接，并在特定的网站上实现网络爬行。我已经使用命令deploy --profile --with-kendra部署了堆栈但是当我使用crawl --profile --name lambda--docs --base-url https://docs.aws.amazon.com/ --start-path /lambda --关键字lambda//dg时出现错误：'/crawl‘未被识别为内部或

浏览 22提问于2021-04-14得票数 0

3回答

简单的Nutch 1.3/Solr索引说明

、

经过大量搜索，似乎没有任何简单的解释来说明如何在Solr中使用Nutch 1.3。我有一个包含其他内容的Solr索引，我将在网站上使用它进行搜索。我想将Nutch结果添加到索引中，这将把外部网站添加到网站搜索中。所有这些都运行得很好。问题是，如何刷新索引？你必须先从Solr中删除所有的Nutch结果吗？或者Nutch会处理这件事？Nutch是否从Solr索引中删除不再有效的结果？没有文档或解释的Shell脚本对回答这些问题没有帮助。

浏览 2提问于2011-09-15得票数 1

回答已采纳

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时，新的爬行开始于抓取步骤，并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

1回答

在jar之外使用配置启动.jar，但可以从任何当前目录执行此操作

、、

我一直在努力解决一个特殊的问题。我在.jar文件中有一个Java程序，在.jar之外还有一个lib目录和一个config目录，但与jar本身所在的目录相同。我正在尝试从代码中引用config/foo.config。如果我与jar在同一目录中，则可以将其作为相对文件引用。我也尝试过使用getResourceAsStream，并确保配置在类路径中。到目前为止，一切正常，但我还必须能够从任何目录启动.jar。所以，如果我的结构是这样的： /prog/util/myprog/myprog.jar /prog/util/myprog/config /prog/util/myprog/config/

浏览 0提问于2014-04-08得票数 0

2回答

如何从nutch访问抓取的内容进行内容分类

、、、

我正在运行nutch与Solr集成的搜索引擎，nutch爬行作业发生在hadoop上。我的下一个要求是为此爬网内容运行内容分类作业，如何访问存储在HDFS中的文本内容以进行此标记作业，我计划使用Java运行标记作业，如何通过Java访问此内容？

浏览 0提问于2014-05-18得票数 1

1回答

按IP地址抓取本地网站

、、

我还在尝试Scrapy，并且我正试图在我的本地网络上爬行一个网站。该网站的IP地址为192.168.0.185。这是我的蜘蛛： from scrapy.spider import BaseSpider class 192.168.0.185_Spider(BaseSpider): name = "192.168.0.185" allowed_domains = ["192.168.0.185"] start_urls = ["http://192.168.0.185/"] def parse(

浏览 0提问于2012-02-11得票数 2

1回答

如何使MOSS 2007我的站点配置文件字段不作为可搜索链接？

、、、、

我有一个MOSS 2007实例，其中我的客户希望我的网站配置文件中的内容不显示为链接。我们如何才能做到这一点？我尝试从SSP中删除首选搜索中心url。它做到了这一点，但它也打破了位于页面右上角(欢迎菜单下方)的标准搜索功能。

浏览 1提问于2009-09-28得票数 0

1回答

对于日期值，SharePoint 2013“查找项目”搜索返回null

、

微软SharePoint 2013。我有一个任务列表，其中有一些日期列。每当我尝试在列表上方的Serach框中搜索日期值时，我都得不到任何项目。其他值在搜索框中工作正常。请帮帮我。未启用内容审批

浏览 10提问于2019-04-16得票数 0

1回答

在SharePoint online库中查找最近添加的文件

、

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示： domain'.sharepoint.com/_api/search/query?Querytext='res1a2b3c4d5e‘ 基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用之前创建/上传的任何文档，我将不会得到结果。如果我在几分钟后搜索相同的内容，则请求成功。当我在我的客户站点上尝试相同的内容时，它有数百

浏览 2提问于2017-04-18得票数 1

0回答

为什么用xpath提取数据保存到数据库会带有<span class="title">xxxx</span>这样的html标签？

、、、、

我的本意是只想爬取xxxxx，为何标签也被爬取了呢 scrapy.py（项目文件）：图片 pipeline.py: 图片

浏览 59提问于2023-08-23

1回答

在AssociationNavigator中具有AttachmentAssociator属性的自定义索引连接器中搜索

、、、

嗨, 我有一个自定义的索引连接器，通过AssociationNavigator方法与实体相关联。为了( SharePoint 2013的)搜索爬网关联实体，我们需要在关联实体中设置'DirectoryLink‘属性或'AttachmentAccessor’属性，如下所述：* 当我设置DirectoryLink属性时，搜索将搜索关联的实体(子实体)和父实体。但是，当我将子实体设置为作为附件进行爬网时，如果使用AttachmentAccessor属性，爬网程序只会爬行父实体，而忽略相关实体，因此不会对其进行索引。这是自定义连接器的一些问题吗？就像在帖子里一样。如果更改为.n

浏览 4提问于2013-07-12得票数 1

1回答

简陋的CSV写作

、、、

作为新用户，我设法使一个蜘蛛可以轻而易举的电子商务网站，提取标题和每个产品的变化和输出CSV文件和产品线，但我会希望这是一个由行的变化，请有人能帮助我在我的项目前进。我期待着回答这个问题，但不幸的是我找不到答案。我的蜘蛛： import scrapy from w3lib.html import remove_tags from products_crawler.items import ProductItem class DemostoreSpider(scrapy.Spider): name = "demostore" allowed_domains

浏览 1提问于2016-07-24得票数 2

1回答

scrapy.Request不回调我的函数

、、、

如果我的问题太琐碎，我很抱歉，但我从今天早上开始就被困在墙后……我是scrapy的新手，我已经看过文档了，但我还没有找到答案…… 我编写了这个爬行器，当我在rules = (Rule(LinkExtractor(), callback='parse_body'),)中调用parse_body时，它会： tchatch = response.xpath('//div[@class="ProductPriceBox-item detail"]/div/a/@href').extract() print('\n TROU

浏览 1提问于2017-07-13得票数 1

1回答