web爬虫_爬虫web网页_web font 爬虫 - 腾讯云开发者社区

performance、sharepoint、sharepoint-2010、web-crawler、sharepoint-2013

Sharepoint web爬虫没有提供足够的可配置性，因此我们一直使用快速web爬虫来运行爬虫。但是，在Sharepoint 2013中，FAST web crawler似乎已被弃用/与Sharepoint web crawler合并。我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗？

浏览 2提问于2013-01-17得票数 1

1回答

如果要编写多线程爬行器，应选择哪个web服务提供商

language-agnostic

如果我想写一个多线程爬虫，我想知道哪个是最好的best服务提供商。Appengine，ec2.... Appengine java显然有一些限制..此外，一个免费将是伟大的，因为我只是测试应用程序。

浏览 2提问于2009-12-17得票数 0

1回答

如何阻止Web爬虫下载文件

security、spam-filter、web-crawler

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说

浏览 0提问于2013-07-27得票数 1

1回答

使用watson discovery访问可公开访问的URL

nlp、ibm-watson、watson、alchemyapi、watson-discovery

我们正在使用watson discovery服务查找与旅行相关的问题的答案。不幸的是，这里使用的文档不是静态的，而是网络上与旅行相关的论坛。因此，我们需要Discovery访问这些URL来注释各种组件(实体、关系、情感等)，然后我们可以根据这些URL进行查询，以找到具有答案的正确链接。然而，我认为discovery只支持文件作为文档集，而不支持URL。我记得alchemy API和新的服务NLU都支持URL。有没有办法让discovery访问这个URL？我们为我们的解决方案选择了发现服务，因为它具有查询支持，而这似乎不存在于NLU或Alchemy中。

浏览 2提问于2017-03-22得票数 0

1回答

java web爬虫

java

嗨，谁能推荐一个简单的java网络爬虫，爬行一个网站，并返回一个链接列表的网站？不，我不需要解析器。感谢您的关注。

浏览 2提问于2011-03-01得票数 0

1回答

柔性Web爬虫

python、variables、web-crawler

我被我的网络爬虫暂时塞住了。

浏览 1提问于2016-05-01得票数 0

回答已采纳

1回答

Web爬虫错误

python、ssl、python-requests

所以我做了这个网络爬虫只是为了练习，我很确定我的代码是好的。我有下面的代码，我可以发布它所引起的错误，但是它实际上是值得的，所有的错误都来自请求包。我能修好这个吗？我只是想学习一些Python，如果我能创建一个功能良好的web爬虫，我会非常高兴的。

浏览 2提问于2015-12-24得票数 0

3回答

web爬虫性能

java、performance、web-crawler

我有兴趣知道在一个非常一般的情况下(一个自制的业余网络爬虫)会有什么样的表现。更具体地说，一个爬虫程序可以处理多少个页面。

浏览 3提问于2010-09-13得票数 1

回答已采纳

4回答

构建web爬虫

c++、c、search-engine

我目前正在开发一个内置网络爬虫的自定义搜索引擎。由于某种原因，我不喜欢多线程，因此到目前为止，我的索引器是以单线程的方式编写的。现在，我在构建爬虫时遇到了一个小难题。

浏览 2提问于2009-05-14得票数 1

1回答

使用noindex no追随者修复来自Google的移动可用性警告

mobile、seo

我有一个移动网站，它确实显示使用是移动友好的，但我收到一条消息说，日历页面上有可用性错误，这是网站的一部分，但不是移动友好的。我最终将使这一页移动友好，但就目前而言，我只是希望谷歌，而不是将其视为移动网站的一部分。所以我的问题是，通过在页面上使用noidex，Google会忽略它，而不会对它的可用性进行评估。

浏览 4提问于2015-03-22得票数 0

2回答

这是一个正确的robots.txt文件吗？

seo、google-search、google-adsense、robots.txt、googlebot

我想允许Googlebot和中介-谷歌(AdSense用户代理)爬行我的网站。因此，我在我的robots.txt文件中编写了下面的代码。Disallow: Disallow: 上面的robots.txt文件是否正确写入？是还是不？

浏览 0提问于2013-06-21得票数 1

回答已采纳

1回答

有一个流行的工具来抓取网络数据吗？

windows、information-retrieval

我正在做信息提取的工作，我需要一个工具从网页上抓取数据，windows中有流行的工具吗？

浏览 7提问于2009-12-14得票数 0

1回答

Feign客户端总是在Spring boot/Crawler4j应用程序中抛出空指针异常

java、spring、crawler4j、openfeign

当我将hubVlient分解到另一个类中时，这个类是我在爬虫类中实例化的，比如hubclient hc = new hubclient()，然后让一些方法hc.send(页面)，这个分解出来的类中的hubClient

浏览 84提问于2020-04-13得票数 0

1回答

如何处理爬虫和过时的资产？

yii2、resources、web-crawler

我的web应用程序出现了以下错误：[10.133.0.13][-][-][error][yii\web\HttpException:404]如何防止crawler尝试访问此过期资源文件并使用当前资源文件？我不想要的解决方案，因为它不是唯一的网络爬虫，当然，我也不想维护几个爬虫。我可以使用robots.txt吗？元标签？特殊属性？我怎么发动汽车呢？

浏览 0提问于2017-12-04得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

java、php、web-crawler

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

如何在solr core中导入索引文档的外部文件

indexing、solr、lucene、core

我们正在努力创建一个波斯搜索引擎的团队工作。我正在做“索引”部分。我使用了Solr，并对一些英文文档进行了索引，看看它是否有效。啊，真灵!现在是波斯索引器的时候了。我为PersianAnalyzer优化了一点代码(例如，扩展了停用字集)，它可以为文档建立索引。现在，我希望将外部波斯文索引文档导入到核心，以查看索引过程并在其上搜索查询。我如何才能做到这一点并将这些索引文档导入到核心？我有点赶时间，所以我将非常感谢任何帮助。

浏览 2提问于2017-01-17得票数 0

2回答

jQuery加载和搜索引擎优化

jquery、ajax、seo

浏览 4提问于2010-08-19得票数 2

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

python、user-interface、tkinter

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

支持windows增量爬行的Web爬虫

java、solr、web-crawler、nutch、crawler4j

我需要一个开源的web爬虫在java开发的增量爬行支持。 Nutch -一个网络爬虫，有更多的hadoop支持功能。Crawl4j是一个很好的网络爬虫，但是它没有增量爬行功能，我也没有检查过许可

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

在spring boot中通过REST api处理提交的耗时任务的最佳方法

spring-boot、spring-mvc、message-queue、messagebroker、decoupling

我有一个春天启动网络项目，需要与网络爬虫系统的工作。我的爬虫服务在没有任何停机时间的情况下工作，每个爬虫请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。我的web应用程序中的用户将URL列表提交给web应用程序，我想向他/她显示:您的请求已提交。完成此请求的爬网后，我希望更新web表单中的请求状态。实现此场景的最佳方法是什么？

浏览 32提问于2020-10-22得票数 1

点击加载更多