web font 爬虫_web font_web爬虫 - 腾讯云开发者社区

performance、sharepoint、sharepoint-2010、web-crawler、sharepoint-2013

我的团队一直在使用Sharepoint 2010抓取大量外部网站。 Sharepoint web爬虫没有提供足够的可配置性，因此我们一直使用快速web爬虫来运行爬虫。但是，在Sharepoint 2013中，FAST web crawler似乎已被弃用/与Sharepoint web crawler合并。我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗？

浏览 2提问于2013-01-17得票数 1

1回答

如何阻止Web爬虫下载文件

security、spam-filter、web-crawler

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

1回答

支持windows增量爬行的Web爬虫

java、solr、web-crawler、nutch、crawler4j

我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制，并与solr或elasticsearch集成。它应该是一个积极的，正在进一步发展，更多的特点。孔径是一个很好的爬虫，它有我提到的所有功能，但它不是一个活动的爬虫，由于许可(如果我使用它的商业目的)，他们的依赖性，我忽略了。 Nutch -一个网络爬虫，有更多的hadoop支持功能。但是我浏览了很多网站和教程，没有合适的文档，api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码，但它在运行map时会导致许多错误，减少作业。nutch没有java来实现类似孔径的功能

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

python、user-interface、tkinter

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

在spring boot中通过REST api处理提交的耗时任务的最佳方法

spring-boot、spring-mvc、message-queue、messagebroker、decoupling

我有一个春天启动网络项目，需要与网络爬虫系统的工作。我的爬虫服务在没有任何停机时间的情况下工作，每个爬虫请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。我的web应用程序中的用户将URL列表提交给web应用程序，我想向他/她显示:您的请求已提交。完成此请求的爬网后，我希望更新web表单中的请求状态。实现此场景的最佳方法是什么？

浏览 32提问于2020-10-22得票数 1

1回答

爬虫不从网站根目录获取Robots.txt文件，而是从web根目录获取

web-crawler、google-crawlers

我已经用robots.txt阻止了爬虫爬行我的web根目录(在我的例子中是/var/www/)。我在/var/www/中禁用了robots.txt，其中包含以下代码行：现在，我需要web根目录(/var/www/mysite.com)的一个子目录被爬虫爬行。我已经在该目录中添加了robots.txt，并在apache中添加了虚拟主机，以允许对此mysite.com进行爬行。但是爬虫仍然从我的web根目录(/var/www)而不是(/var/www/mysite.com)获取robots.txt。提前感谢您的帮助。

浏览 3提问于2013-05-10得票数 0

回答已采纳

2回答

如何将.java和html结合起来？

java、html、eclipse、web-crawler

我试图创建一个web应用程序，用户可以选择一个电影的名称(前)。(“空中坠落”)从下拉列表。然后，我想执行一个爬虫到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web爬虫: crawler4j，如果我选择将主.java文件作为应用程序运行，它就会运行。我怎么才能把这两者结合起来？是否可以使用html中的参数(电影名称)调用java类文件？为了在我的html中执行它，我必须用爬虫创建一个单独的Applet吗？我可以这样做并用它发送字符串( html中的电影名称，所以我

浏览 3提问于2012-12-10得票数 0

回答已采纳

1回答

Web Crawler的功能

java、open-source、web-crawler

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

python、scrapy、web-crawler

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

使用php爬虫将数据索引到ElasticSearch

php、web-crawler、elasticsearch

我想索引爬行网站到ElasticSearch，但我不知道，我可以索引爬行信息到ElasticSearch与php爬虫。我知道Apache可以将爬行网站索引到ElasticSearch，但是我对php爬虫一无所知！有没有任何php爬虫，它的性能良好，可以索引爬行网站到ElasticSearch？帮助我为我的项目选择php爬虫，我可以将它与ElasticSearch集成。我可以在php web应用程序中使用Apache吗？

浏览 4提问于2013-05-12得票数 3

1回答

网络爬虫会遇到什么危险？

web-crawler

我刚写完一个爬虫，一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此，我的问题是，web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点？

浏览 3提问于2014-11-08得票数 1

2回答

在网页上使用按钮。谷歌会索引他们的链接吗？

seo、web-crawler

我想在我的页面上使用标准按钮的外观，但我希望网络爬虫能够像它们是链接一样跟随它们。谷歌和其他网络爬虫会索引这样的链接的网页吗？ <form method="get" action="/mylink.html"><input style="font-size:10pt" id="my-link" type="submit" value="Learn More..." /></form> 如果没有，有没有其他使用标准按钮的方法？

浏览 0提问于2009-04-25得票数 1

回答已采纳

2回答

网络爬虫-忽略Robots.txt文件？

python、web-crawler、mechanize、robots.txt

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

python

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围是什么？我非常开放和渴望学习web应用程序开发，因此，任何帮助或建议将不胜感激。谢谢。

浏览 5提问于2015-07-08得票数 0

回答已采纳

1回答

如何从crawler获取数据到我的站点？

php、web-services、web-crawler

从外部爬虫获取数据到我的数据库的最好方法是什么，到我的网站我在LAMP环境中工作，web服务是个好主意吗？爬虫每15分钟运行一次。

浏览 2提问于2009-06-15得票数 0

回答已采纳

1回答

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

amazon-s3、amazon-web-services、web-crawler、google-crawlers

谷歌网站管理员指南解释说，web服务器应该处理包含_escaped_fragment_的url请求(爬虫将www.example.com/ajax.html#!mystate修改为url 我的网站位于亚马逊S3上，我没有web服务器来处理此类请求。我如何才能确保爬虫获得提要，我的网站获得索引？

浏览 0提问于2012-10-09得票数 6

1回答

Spider/Crawler用于测试需要会话cookie的AJAX web应用程序？

ajax、session、cookies、web-crawler

我们有一个web应用程序，这是大量的AJAX，它是非常可定制的，所以我们需要一些东西，将点击它的每个链接，以确保没有任何表单/页面中断。我知道有很多爬虫/爬虫，但是我们还找不到一个容易实现并且可以与AJAX一起工作的爬虫，并且允许你使用会话cookie。

浏览 1提问于2010-05-05得票数 2

1回答

在网站上使用Scrapy Spider结果

scrapy

我已经尝试了一些爬虫程序来从我本地机器上的Python环境中提取web数据。理想情况下，我想主办一个网站，可以启动爬虫聚合内容，并显示在网站上。我的问题是，有没有可能在web环境而不是我的本地机器上做到这一点？

浏览 40提问于2019-07-24得票数 0

1回答

抓取流行论坛/公告牌软件的工具

python、dataset、vbulletin、web-crawler

我已经开始编写一个爬虫来抓取电子公告板了。然而，我不是一个web程序员(我可以使用json api，但这不是真正的web爬行)，因此我不知道爬行的最好方法是什么，也不知道有什么工具可用。我更有能力编写爬虫，但我发现底层的HTML非常不规则，所以我不想成为新版本vbulletin中HTML结构变化的牺牲品。我正在用pycurl和漂亮的汤写一个界面。然而，有没有更好的方法来做到这一点，有没有好的爬虫已经可以在vbulletin上使用了？(语言不是问题)。一个元论坛爬虫(适用于多个论坛类型)会更好。如果你不能建议一个，你能建议我，如果你有经验，从我对底层HTML稳定性的期望，我是否应该担心vb

浏览 0提问于2012-05-02得票数 0

回答已采纳

1回答

如何同时从地形创建多个胶水爬行器

amazon-web-services、terraform、aws-glue、terraform-provider-aws

我正在部署来自terraform的爬虫数组，我希望同时部署一个包含2个或更多爬虫的列表。我使用的是foreach，但是对于dynamodb_target，我无法找到如何将它与特定的爬虫相关联，也就是说，爬虫1具有table_name 1作为dynamodb_target an等等。 main.tf resource "aws_glue_crawler" "example" { for_each = var.crawlerList database_name = each.value.database_name name =

浏览 11提问于2022-10-12得票数 0

回答已采纳

7回答

对使用Lucene或Solr的爬虫工具的建议？

lucene、solr、web-crawler

对于HTML和XML文档(本地或基于web)，什么是一个好的爬虫(爬虫)，并且在Lucene / Solr解决方案空间中工作得很好？可以是基于Java的，但不一定是。

浏览 13提问于2008-11-12得票数 16

回答已采纳

2回答

搜索结果转换中的多个索引不适用于Kentico

search、indexing、kentico

我有两种不同类型的索引，它们都工作得很好，至少在本地索引的搜索预览中是这样。我将它们都添加到了索引区的智能搜索部分，一个是页面爬虫，另一个是在媒体库中搜索的自定义索引。问题是结果只与爬虫的结果相匹配，并且没有显示任何自定义索引。我认为问题出在smartSearchResults转换上，因为每次我尝试从自定义索引中添加一个字段时，都会得到一个错误，即该值不存在。我的问题是如何使用这两个索引来检索同一个web部件中的所有结果？这就是变形的样子。 <div class="result"> <!-- Search result title --

浏览 0提问于2018-12-05得票数 0

2回答

使用noscript优化SEO

html、ajax、seo

我有使用ajax加载帖子的新闻门户，以获得更好的用户体验。Web爬虫看不到javascript生成的链接和文本，所以我读到了关于为爬虫使用noscript标记的文章。在noscript部分中，我以正确的方式(在我的php代码中)使用标题标记来呈现标题、字幕、描述和链接到post。许多SEO分析器网站现在看到了这些内容，但我不知道真正的爬虫像谷歌和其他。他的这是一个很好的方式，使我的内容可见的爬虫？我知道这很容易..。

浏览 0提问于2015-04-22得票数 3

1回答

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

web-crawler、httprequest、googlebot

来自：下表显示了Google各种产品和服务使用的爬虫： User代理令牌在robots.txt中的用户代理:行中使用，以便在为站点编写爬行规则时匹配爬虫类型。有些爬虫有多个令牌，如表中所示；要应用规则，只需匹配一个爬虫令牌即可。此列表尚未完成，但涵盖了您可能在website.Full用户代理上看到的大多数爬虫字符串是对爬虫的完整描述，并显示在请求和web日志中。问题从上面的节选中我们可以看到，可以在robots.txt文件中使用用户代理令牌进行匹配，从而检测爬虫。我想使用我的服务器上的用户代理令牌来检测Googlebot爬虫请求。因此，我不必硬编码完全用户代理字符串。但是，

浏览 3提问于2019-10-28得票数 0

回答已采纳

1回答

"web爬虫“、"web刮刀”、"DOM分析器“和"DOM解析器”的区别是什么？

web-scraping、web-crawler

"web爬虫“、"web刮刀”、"DOM分析器“和"DOM解析器”有什么区别？

浏览 6提问于2022-10-31得票数 0

1回答

Core Web Vitals的用户代理是什么？

user-agent、core-web-vitals

crawler的用户代理是什么，它将核心Web Vitals数据传递到Google搜索控制台？我找不到任何关于它的信息，无论它是与讨论的相同的PageSpeed Insight爬虫，还是具有不同用户代理的另一个爬虫？

浏览 13提问于2021-02-23得票数 0

回答已采纳

2回答

ASP.NET网络Api会不会对搜索引擎优化不利？

seo、asp.net-web-api

基于Web API的网站会遇到SEO问题吗？假设页面的所有内容都是由javascript拉取的……搜索引擎爬虫能够获取页面内容吗？我听说爬虫在页面上爬行时并不总是支持javascript或执行javascript。

浏览 1提问于2012-07-30得票数 0

2回答

爬行时管理URL的常见方法是什么？

web-crawler

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

3回答

用字体对密文进行视觉解密是否可行？

encryption、one-time-pad

目的是避免容易被Web爬虫复制的文章。用一个替代密码对文本进行加密。生成一个字体，以抵消替换和传输到Web前端.(这是通过让文本字符呈现代替它们的实际字符来实现的。) 当浏览器使用这种字体呈现文本时，用户可以直接读取实际文本。用户像往常一样阅读。爬虫者看到的是胡言乱语。目标已实现。

浏览 0提问于2017-09-05得票数 2

1回答

有没有办法在Sinatra中将html刷新到网络上？

ruby、sinatra

我有一个Sinatra应用程序，它有一个长时间运行的进程(一个web刮板)。我希望应用程序在爬虫运行时刷新爬虫进度的结果，而不是在爬虫结束时。我曾考虑过使用ajax分叉请求并做一些花哨的事情，但这是一个非常基本的单页应用程序，它只需要在发生时将日志输出到浏览器即可。有什么建议吗？

浏览 1提问于2010-06-12得票数 6

回答已采纳

9回答

在创建网络爬虫时，需要考虑哪些关键问题？

web-crawler

我今天刚开始考虑创建/定制一个网络爬虫，对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙，所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?” 这给我带来了很多问题，但我认为我首先需要回答的两个主要问题是：从一开始就感觉有点“不确定”--这类事情可以接受吗？爬虫应该采取什么具体的考虑来不让人心烦？

浏览 17提问于2008-08-28得票数 11

回答已采纳

4回答

HTML5语义标记在intranet应用程序中的用途是什么？

html、semantic-markup

据我所知，HTML5语义标记的唯一真正优势是搜索引擎和web爬虫能够更好地解释文档。由于内部网应用程序与搜索引擎或网络爬虫无关，在HTML5中使用语义标记有哪些优点？

浏览 5提问于2013-12-05得票数 2

回答已采纳

1回答

运行网站爬虫

java、web-crawler

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

1回答

配置Web.Config (ASP.NET)以将web爬网程序重定向到另一页

angularjs、apache、.htaccess、iis、web-config

我有一个使用AngularJS的网站在IIS服务器上运行。由于网站的所有信息都是通过AJAX请求的，社交媒体爬虫无法解析这些数据。因此，为了防止社交媒体显示空表情，例如：{{helloWorld}}，我尝试将一些社交媒体爬虫重定向到我的web应用程序中的特定部分，该部分可以为社交媒体爬虫预先呈现页面。我已经使用一个Apache .htaccess文件成功地做到了这一点： RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit|Facebot|Twitterbot) RewriteRule ^(.*)$ http://myapp.com/prer

浏览 0提问于2017-12-09得票数 0

1回答

链接文本是否可由爬虫搜索？

seo、javascript、keywords

我最近为我制作的一个网络应用程序创建了一个简单的网站。该网站和应用程序都是面向移动的，因此添加文本内容的空间有限(我设计了界面以避免页面滚动)，供各种web爬虫使用。作为解决方案，我想要创建一个小的“链接”，它将呈现一个带有站点描述的对话框。我是新的搜索引擎优化，所以我不确定它是否会工作，或它是否被认为是非法的做法。所以，我描述的是： ( 1)向站点添加关键字的合法方法？(即不是“关键字填充”) 2)即使站点描述文本只出现在JavaScript中，也可以通过web爬虫搜索？ 3)如果web爬虫不“嗅探”动态JavaScript生成的文本，那么将文本直接输入HTML并使链接显示/隐藏包含文本的

浏览 0提问于2014-04-11得票数 0

回答已采纳

1回答

从单个MongoDB队列获取信息的多个工作人员

python、mongodb、queue、mongodb-query、worker

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。每当工作人员完成URL抓取时，它将在MongoDB集合"queue“中发出请求，以获得要爬行的新URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取？非常感谢你的帮助

浏览 0提问于2014-03-29得票数 0

回答已采纳

2回答

如何阻止不同的web爬虫访问基于java的web应用程序？

java、web、web-crawler

我正在开发一个基于struts2的web应用程序，希望阻止web爬虫访问我的应用程序。

浏览 0提问于2014-11-27得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

web、web-scraping、web-crawler、search-engine

我在试着了解网络爬行是如何工作的。有三个问题：我们是否必须有一个初始的URL目录来构建一个更大的URL目录？这是怎么回事？有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

如何检查请求是否来自google、facebook、twitter和bing爬虫？

php、laravel、web、handlebars.js、template-engine

我想提供一个web应用程序，并在JavaScript中编译一个带有双向数据绑定的模板。另一方面，我想为网页爬虫制作刚刚好的HTML内容。如何知道请求是否来自流行的网络爬虫/机器人，如Google、bing、facebook、twitter？

浏览 4提问于2015-10-06得票数 2

回答已采纳

2回答

用Java编写的最好的开源Web爬虫工具是什么？

java、web-crawler

用Java编写的最好的开源Web爬虫工具是什么？

浏览 0提问于2011-12-12得票数 13

回答已采纳

1回答

如何处理爬虫和过时的资产？

yii2、resources、web-crawler

我的web应用程序出现了以下错误： 2017-12-02 22:32:39 [10.133.0.13][-][-][error][yii\web\HttpException:404] yii\base\InvalidRouteException: Unable to resolve the request "assets/7adcf7ba/site.css". in /var/www/html/my-website/vendor/yiisoft/yii2/base/Module.php:537 它是由我在HTTP_USER_AGENT中看到的引起的。文件夹7adcf7ba已经不

浏览 0提问于2017-12-04得票数 0

2回答

Web Crawler与Html解析器

java、web-crawler、jsoup、crawler4j

web爬虫和解析器有什么区别？在java中，有一些用于获取库的名称。例如，他们将nutch命名为一个爬虫，而jsoup命名为一个解析器。他们的目的是一样的吗？他们在这份工作上完全相似吗？谢谢

浏览 3提问于2018-11-14得票数 2

回答已采纳

1回答

Web.config修改以阻止搜索引擎爬行pdfs

iis、web.config

我试图阻止网页爬虫索引pdf文件在网站上。我知道如何处理.htaccess文件，但不知道如何在web.config文件中这样做。这个片段将阻止爬虫建立整个站点的索引，对吗？我需要什么才能阻止pdfs被爬行？有可能吗？ <httpProtocol> <customHeaders> <add name="X-Robots-Tag" value="noindex" /> </customHeaders> </httpProtocol>

浏览 0提问于2020-11-06得票数 4

回答已采纳

2回答

木偶人爬行器大规模爬行

web-crawler、puppeteer、google-chrome-headless

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

3回答

用ruby将JSON返回给客户端get请求

ruby-on-rails、ruby、web-services、json

我正在试着做一个rest全红宝石服务。我的程序分解的方式是两个应用程序。一个是web服务爬虫，另一个是web应用程序(尚未开发)，web应用程序将使用get post和常规内容向爬虫程序发出请求。下面是一个使用curl的post请求示例 curl -d 'url=www.whatever.com&depth=10' http://127.0.0.1:8080/requests/new 工作正常，似乎发布了一个请求。下面是删除部分 curl -x DELETE http://127.0.0.1:8080/requests/1 where 1 is id of

浏览 5提问于2011-07-07得票数 0

回答已采纳

1回答

AWS Boto启动实例，部署Docker映像，运行和终止

python、amazon-web-services、boto、boto3

我有一个网络爬虫，是一个码头形象。我想使用boto创建一个EC2实例，部署我的爬虫，运行这个爬虫，然后在它完成后终止这个实例。我现在的想法是：使用包含Docker的AWS启动新的EC2实例。 SSH在实例中使用类似Fabric的内容并安装Docker。使用相同的SSH连接来运行我的命令来启动爬虫使Web在完成时删除自己的实例。以下是一些细节：我真的需要使用像Fabric这样的工具来对我的实例进行SSH并运行命令吗？如何选择当前运行脚本的实例？如果您愿意，可以使用self实例。有更好的方法吗？

浏览 0提问于2018-03-19得票数 2

1回答

爬行Anywhere+Solr+ Tomcat:无法访问爬虫管理

solr、tomcat7、web-crawler、solrj

问题更新：谢谢您的更新。我正在尝试在任何地方实现爬行，以抓取文档文件文件夹。我遵循了中指定的指令安装了tomcat和Apache web服务器。因此，我试图登录到爬虫:：http/爬虫。但我得到的信息是在此服务器上找不到请求的URL /crawler。 Apache/2.0.64 (Win32)本地主机端口80服务器而对于://ip:8180/爬行它提供： <error> <errno>1</errno> <errmsg>Missing action</errmsg> </error> 谁能告诉我错过

浏览 2提问于2013-12-02得票数 0

回答已采纳

1回答

Python站点爬虫，使用Scrapy保存文件

python、jsp、web-crawler、scrapy

我正在尝试编写一个爬虫，它将接受某个搜索条目，并保存一大堆与结果相关的.CSV文件。我已经让爬虫登录了，解析了我需要的所有html数据，现在我要做的就是弄清楚如何保存我需要的文件。因此，搜索返回如下的链接然后在web浏览器中提示您保存相关的.csv文件。我如何写我的爬虫能够加载这个页面和下载文件？或者，有没有一种方法可以捕获指向信息的静态链接？

浏览 0提问于2011-08-19得票数 2

4回答

有已知的网络爬虫列表吗？

list、documentation、web-crawler、bots

我正在尝试获取web服务器上某些文件的准确下载编号。我看了看用户代理，其中一些显然是机器人或网络爬虫，但许多我不确定，他们可能是也可能不是网络爬虫，它们导致了许多下载，所以对我来说知道这一点很重要。是否有一些已知的网络爬虫的列表和一些文档，如用户代理，IP，行为等？我对官方的不感兴趣，比如谷歌的，雅虎的，或者微软的，这些通常都是很好的表现和自我证明。

浏览 0提问于2009-11-14得票数 17

回答已采纳

1回答

让Drupal 8使用外部索引？

我有两个网站，一个是由我们在drupal 8维护，另一个是由另一个公司维护，为我们公司的新闻更新等。我想找出在drupal进行联合搜索的最佳方法。因此，设置一个Solr实例并设置一个web爬虫来爬行另一个站点，设置drupal 8来使用search和search。但是，现在我不知道用drupal 8集成web爬虫创建的索引的最好方法是什么。有什么想法吗？

浏览 0提问于2017-08-15得票数 0