java 批量爬虫 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

通过Java获取import.io中的批量提取

、、

如果我能够通过批量提取来获得数据，而不是创建一个循环并发送数千份缓慢的请愿书，那就好多了。我一直在想，如果有什么命令让我做批量提取的话？对于是否能够在带有预先设置的爬虫中触发HTTP请求，我也有同样的问题，但到目前为止还没有必要。谢谢!

浏览 2提问于2016-03-25得票数 0

回答已采纳

1回答

抓取大容量插入

、

我有一个爬虫，从多个网站获取数据，并更新到mysql表的信息。我使用scrapy编写的crawler.The爬虫将插入/更新大量的列。是否可以批量插入/更新scrapy中的项目？

浏览 0提问于2015-02-07得票数 0

3回答

将选择的维基百科文章复制到自己的维基中？

、、、

有没有办法将维基百科上的某些文章(大约10000篇)批量复制到我自己的mediawiki站点上？编辑:如何在不覆盖类似命名的文章/页面的情况下执行此操作？此外，我也不打算使用非法手段(爬虫等)

浏览 0提问于2009-05-26得票数 0

回答已采纳

1回答

将网站迁移到8

、

我们需要使用爬虫提取内容，然后集成而不是将数据导入到。IBM中有批量导入功能吗？是否可以通过某种API或服务自动化创建页面和组件的过程？如何批量导入Word文档和PDF，将其存储为可从迁移页面引用的组件。致以问候。

浏览 3提问于2014-05-28得票数 3

回答已采纳

1回答

Crawler在末尾挂起了几个urls

无论我粘贴的是2000个urls、1000个、500个还是其他什么，爬虫都能完美地从批量urls返回数据，但随后会从末尾停止一些urls并挂起……由于没有取消/停止按钮，我必须退出程序。

浏览 0提问于2015-07-31得票数 1

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

2回答

抓取图像、整个Web页面并缓存它们

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。

浏览 0提问于2010-06-16得票数 0

1回答

缺少回调错误会阻止脚本继续执行

、、、

当我运行一个批量种子文件时(这样我就不必手动运行每个爬虫程序和单个种子程序)，第一个爬虫程序就完成了，但是下面的错误挂起了，阻止了其余步骤的发生。/cache/nfHitters.json' 下面是我的爬虫代码。有没有一种方法可以完全消除这个错误(或者有没有我遗漏的最佳实践来防止这种情况一起发生)？

浏览 3提问于2015-09-01得票数 0

1回答

学习多线程Java爬虫的良好开端

、、

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot

浏览 1提问于2012-04-16得票数 0

回答已采纳

2回答

我首先要说的是，我对此相当陌生，所以如果有一个简单或显而易见的答案，我很抱歉。我想每年删除前5年和所有36种情况的数据。是的，我知道这只有180种不同的可能性，我可以手工完成它们，但我正在利用这一点作为学习的机会。我知道db=201415可以改为每年的201314等等，我也知道sit=5v5可以是5v5home、5v5road、5v5close等等。这些并不遵循我认为的逻辑路径，但我可以简单地复制和

浏览 1提问于2015-07-04得票数 2

2回答

当列表中的URL较多时，Import.io大容量提取速度会变慢

、

我已经设置了一个Import.io批量提取，可以很好地处理50个URL。它几乎可以在几秒钟内快速浏览所有这些内容。一种似乎有效的解决方案是将它们一次分解为1000个URL的块，并对每个URL进行单独的批量提取。但是，这非常耗时，并且需要在最后拼接回所有数据。

浏览 0提问于2015-07-14得票数 4

2回答

需要web爬网帮助

我想知道是否有人知道他们使用过的一个像样的健壮的开源网络爬虫？新手应该很容易安装和使用。感谢您没有搜索网络爬虫和粘贴列表。

浏览 2提问于2010-02-21得票数 4

1回答

如何将Scrapy管道中的批量更新写入mongodb

、、

我有一个基于Scrapy的连续运行的爬虫。这些请求可能会时不时地失败，我需要记录成功和失败。在这里，我收集了相应列表的in，并在close_spider上批量编写。有没有更有效的方法来实现这一行为？

浏览 0提问于2020-05-12得票数 0

4回答

构建web爬虫

、、

我目前正在开发一个内置网络爬虫的自定义搜索引擎。由于某种原因，我不喜欢多线程，因此到目前为止，我的索引器是以单线程的方式编写的。现在，我在构建爬虫时遇到了一个小难题。

浏览 2提问于2009-05-14得票数 1

1回答

支持windows增量爬行的Web爬虫

、、、、

我需要一个开源的web爬虫在java开发的增量爬行支持。 Crawl4j是一个很好的网络爬虫</

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

java web爬虫

嗨，谁能推荐一个简单的java网络爬虫，爬行一个网站，并返回一个链接列表的网站？不，我不需要解析器。感谢您的关注。

浏览 2提问于2011-03-01得票数 0

1回答

识别搜索爬行器

、、、

我有一个网站，统计有多少人访问了这个特定的网页，但我不想计数什么时候搜索爬虫访问他们。java是否有任何方法来识别它是爬虫还是真正的用户？使用Java7和tomcat 谢谢

浏览 2提问于2015-10-21得票数 1

回答已采纳

1回答

用于爬虫应用的数据库系统

、

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。

浏览 2提问于2012-01-06得票数 1

回答已采纳

4回答

回形针:如何在Rails控制台中存储图片？

、、、

因为我有许多图片在我的本地存储(我使用爬虫下载成吨的图片)，我想将它们存储到数据库中，利用回形针的好处来做一些图像工作，如缩略图等。如果我使用网页将新图片逐个保存到数据库中，将花费大量时间。所以我想在rails控制台(一些代码)中找到一种可以批量将图片保存到数据库中的方法。

浏览 1提问于2011-01-13得票数 38

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

点击加载更多

通过Java获取import.io中的批量提取

抓取大容量插入

将选择的维基百科文章复制到自己的维基中？

将网站迁移到8

Crawler在末尾挂起了几个urls

基于PHP的Web爬虫或基于JAVA的Web爬虫

抓取图像、整个Web页面并缓存它们

缺少回调错误会阻止脚本继续执行

学习多线程Java爬虫的良好开端

带下拉菜单的import.io web crawler

当列表中的URL较多时，Import.io大容量提取速度会变慢

需要web爬网帮助

如何将Scrapy管道中的批量更新写入mongodb

构建web爬虫

支持windows增量爬行的Web爬虫

java web爬虫

识别搜索爬行器

用于爬虫应用的数据库系统

回形针:如何在Rails控制台中存储图片？

Web Crawler的功能

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐