当我们使用RDBMS时，为什么Stormcrawler中没有用于存储抓取结果的Bolt？

Stormcrawler是一个开源的分布式爬虫框架，用于抓取和处理大规模的互联网数据。在使用RDBMS（关系型数据库管理系统）时，为什么Stormcrawler中没有用于存储抓取结果的Bolt呢？

这是因为RDBMS在处理大规模的互联网数据时存在一些限制和挑战，不适合作为Stormcrawler的存储抓取结果的解决方案。以下是一些原因：

数据模型：RDBMS使用表格的结构来存储数据，需要定义固定的模式和字段。然而，互联网数据的结构通常是非结构化的，难以用表格来表示。Stormcrawler处理的是大量的网页数据，每个网页的结构和字段可能不同，使用RDBMS来存储这些数据会导致数据模型的复杂性和灵活性不足。
可扩展性：RDBMS在处理大规模数据时，需要进行复杂的数据分片和分布式事务管理，这对于爬虫框架来说是一个挑战。Stormcrawler需要高效地处理大量的并发请求和响应，而RDBMS的复杂性可能会导致性能瓶颈和扩展性问题。
读写性能：RDBMS通常是为了支持复杂的查询和事务而设计的，而Stormcrawler主要关注的是高吞吐量的数据处理。使用RDBMS来存储抓取结果可能会导致读写性能的瓶颈，影响整个爬虫系统的效率。

基于以上原因，Stormcrawler选择了其他存储方案来存储抓取结果，例如NoSQL数据库（如Apache Cassandra、MongoDB等）或分布式文件系统（如Hadoop HDFS）。这些存储方案具有更好的可扩展性、灵活性和性能，适合处理大规模的互联网数据。

腾讯云提供了多种与云计算相关的产品和服务，可以用于构建和部署Stormcrawler爬虫系统。例如，腾讯云的分布式数据库TDSQL、分布式文件系统CFS、对象存储COS等都可以作为存储抓取结果的解决方案。具体的产品介绍和链接地址可以参考腾讯云的官方文档和网站。

请注意，本回答仅供参考，具体的存储方案选择应根据实际需求和系统架构来决定。

当我们使用RDBMS时，为什么Stormcrawler中没有用于存储抓取结果的Bolt？

我想使用Stormcrawler与关系数据库管理系统的引擎，如甲骨文，MySQL或Postgres。但是在storm-crawler-sql模块中，我们只有一个SqlSpout和一个StatusUpdaterBolt。我们没有找到任何用于将爬网结果索引到SQL数据库的类。这背后有什么技术原因吗？

浏览 9提问于2021-05-27得票数 0

回答已采纳

1回答

基于RSS提要中的pubDate/lastBuildDate重新爬网页面

、

我正在设置一个基于Stormcrawler (v1.13)和Elasticsearch的and搜索。我已经将Stormcrawler配置为每24小时重新爬行一次索引页面。此外，该网站有一个RSS订阅最近发布或更新的页面，每10分钟爬行。这对于检测新页面非常有效。然而，我也想重新抓取已更改的页面(例如。当标题改变时)在短时间内。当解析RSS源时，所发现的DISCOVERED连同状态U

浏览 1提问于2019-08-02得票数 1

4回答

DBMS与RDBMS有何不同？

、

这就是他们的不同之处，这就是我所理解的。将数据存储在文件中，该计算机hard disk是数据库管理系统，因为它将数据存储在磁盘中。没有所谓的表和表之间的关系--没有主键，没有外键。并用于simple small应用程序。Security对此并不关心。在tables中存储数据，在表之间存储</e

浏览 8提问于2014-06-13得票数 0

回答已采纳

1回答

风暴爬虫没有从网页中检索所有文本内容

我试图使用风暴爬虫在我们的网站上爬行一组页面，虽然它能够检索和索引一些页面的文本，但它并没有在页面上捕获大量的其他文本。在大多数情况下，我使用的是配置默认值，但做了以下更改：对于弹性索引映射，我启用了_source: true，并为所有属性(内容、主机、标题、url)启用索引和存储。但是，对于许多页面，检索和索引的内容只是页面上所有文本的子集，并且通常不包括我们感兴趣的主页面

浏览 3提问于2021-04-16得票数 1

回答已采纳

1回答

不为elasticsearch获取/索引页面的风暴爬虫

、、、

我使用的是带有弹性搜索的风暴爬虫，在Kibana爬行网页时没有显示带有FETCHED状态的页面。不过，在控制台上，网页似乎是被获取和解析的。我扩展了com.digitalpebble.stormcrawler.elasticsearch.bolt.IndexerBolt以将网页的元数据存储在本地文件中，它似乎根本没有任何元组。因为IndexerBolt还将url

浏览 0提问于2018-04-05得票数 0

回答已采纳

1回答

在带有Kafka的星火结构流中，火花如何管理多个主题的偏移量

、、、、

考虑一下Spark结构化的流媒体作业，它读取来自Kafka的消息。如果我们已经定义了多个主题，那么代码如何管理每个主题的偏移量？我已经通过了KafkaMicroBatchStream类，无法得到如何如果得到的偏移为不同的主题。尝试理解实现，因为我需要编写来自多个RDBMs表的自定义源代码，每个表都有自己的偏移量。该偏移量将仅在RDBMS表中管理。

浏览 2提问于2020-12-07得票数 1

回答已采纳

2回答

基于特定列将Postgresql行与Mongodb文档连接

、、、、

我在我的应用程序中使用了MongoDB和PostgreSQL。使用MongoDB的需要是，我们可能会插入任意数量的新字段，我们将在MongoDB中存储这些字段的数据。我们将固定字段值存储在PostgreSQL中，将自定义字段值存储在MongoDB中。 E.g.然后映射结果以获得新字段的值并在U

浏览 3提问于2015-01-02得票数 3

1回答

NodeJS和MongoDB的模式结构建议

、、、

我的模式：由于MongoDB是NoSQL，我们不能像SQL那样使用关系查询，所以我必须从所有业务中抓取业务，然后为该业务找到用户，然后根据逻辑检查用户角色，然后我可以找到设备信息，在那里我可以获得设备令牌，用于发送移动和web的推送通知，而device_type无论是web还是移动都是分叉的。这样我就可以发送一个推送通知，现在问题就出现了，因为我从客户端获得了额外的信息，比如我们

浏览 0提问于2018-10-12得票数 0

1回答

Java中两种异构系统的数据验证

、、、、

，但这正是我的要求，我开发了一个基本的java框架，在eclipse中使用源查询和目标查询(行数有限)，并通过获取RDBMS和HIVE结果集进行并行比较，然而，为了使之成为一个更全面的验证，我必须比较这两个系统的键初始化两个HashMaps，一个用于关系数据库，另一个用于单元，然后将PK作为数组中的键和非键属性作为值。现在，使用两个哈希映射试图比较它之间的键/值。尝试<e

浏览 4提问于2016-07-26得票数 0

6回答

在目录服务器(即LDAP数据库)和RDBMS之间进行选择

、、

在我的项目(我是主要的开发人员)中，我们前面有一个网络配置，该配置存储了一个XML文件。然而，由于配置数据的层次性和可扩展性标准，目录服务器似乎是一个更好的选择。使用目录服务器的动机是：将来，我们</

浏览 1提问于2009-09-29得票数 5

回答已采纳

1回答

为什么我们要在Django中为MongoDB创建模型字段？

、、、、

我在RDBMS上和Django合作过。我熟悉Django中的模型、模型字段。但是，我发现了很多教程，他们在MongoDB中使用Django时提到了Django。我搜索了很多这个，但是找不到为什么他们仍

浏览 0提问于2019-04-02得票数 1

回答已采纳

1回答

本体是否可以适当地取代RDBMS来代替web应用程序？

、、

我正在考虑将web应用程序的内容存储在RDF或OWL本体中，而不是RDBMS。这样的应用程序使用本体而不是关系数据库管理系统是否合理？ (同样，这只是为了满足。用户数据，商业和诸如此类的东西将留在一个数据库，因为我认为没

浏览 2提问于2010-03-31得票数 3

回答已采纳

1回答

如何使用SQoop对从RDBMS迁移到HDFS的数据进行测试？

、、、、

测试人员如何测试数据是否从RDBMS迁移到HDFS？请只从测试的角度解释。将数据从RDBMS移动到HDFS和将数据从RDBMS移动到HIVE之间有什么区别？据我所知，蜂巢不是一个数据库，那么为什么要将数据移动到蜂巢呢？

浏览 3提问于2017-06-06得票数 2

回答已采纳

1回答

Python3抓取网爬虫

、、、、

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。以下是我的默认蜘蛛代码： name = "quotes" f.write(response.body)我需要一个只包含以下类的

浏览 2提问于2020-07-20得票数 0

回答已采纳

5回答

如果我们放弃关系，关系数据库会比它们的NoSQL数据库扩展(或者更好)吗？

、、、、

然而，我感兴趣的是，当关系被丢弃时，是否有任何NoSQL转换验证了性能(维护)比传统关系数据库管理系统( RDBMS )获得的性能(维护)增益。当RDBMS存在的核心原因被删除时，我们为什么要使用RDBMS呢？想到了几个原因结构化查询语言(SQL)中一种著名的语言。然而，这些需求不一定是存储</em

浏览 10提问于2012-01-01得票数 12

回答已采纳

1回答

hibernate可滚动结果立即获取mysql中的所有行

、、、

根据客户基础结构，我们的应用程序可能运行在多个DB上。我们使用Hibernate orm，因此我们可以在各种RDBMS上部署应用程序。我们注意到，在使用MySql数据库的所有环境中，内存消耗都是异常的。通过对问题的分析，我们发现当我们使用可滚动的结果时，会产生问题。与其他环

浏览 1提问于2018-02-02得票数 1

回答已采纳

2回答

jQAssistant:商店重置是如何工作的？

、

我想为我们的团队使用jQAssistant。我是根据安装的，所以我有一个独立于jQAssistant运行的外部Neo4j存储。<!, GraphML, GraphQL, JAX-RS, JPA 2, JSON, JUnit, Java, Java EE 6, Maven 2 Repository, M

浏览 1提问于2021-07-12得票数 0

1回答

我有MySQL背景，对面向文档的数据库特别是CouchDB很感兴趣。我感兴趣的一件事是数据完整性。面向文档的数据库如何处理此问题？例如，在RDBMSes中，有一些方法可以防止重复记录，或者保证如果您有一位信息，就会有另一位信息，否则就什么也没有。我猜更广泛地说，我的问题是，与DODBes用于解决的问题相比，RDBMSes适用于哪些类型的问题？我查看了一些其他的stackoverflow问题来寻找解释

浏览 1提问于2010-01-13得票数 3

回答已采纳

2回答

如何在Postgresql中使用Redis进行LRU缓存？

、、、

我对Redis很陌生，我想知道如何在一起使用Redis和PostgreSql --特别是在Postgres中使用Redis只用于LRU缓存。谢谢。

浏览 7提问于2014-08-27得票数 3

回答已采纳

2回答

WCF分页结果和数据导出

、、

我走进了一个将WCF服务用于数据层的项目。目前，当网格需要数据时，将返回所有行，并将结果绑定到网格，并将数据集填充到会话变量中以进行分页/排序/重新绑定。我们已经遇到了最大消息大小的问题，所以我认为是时候从抓取和缓存转换为只抓取当前页面了。表面价值这看起来很简单，但有一个小问题。允许用户在任何时候导出整个结果集。这意味着，出于网格查看的目的，获取当前页面是可以

浏览 2提问于2010-04-14得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当我们使用RDBMS时，为什么Stormcrawler中没有用于存储抓取结果的Bolt？

相关·内容

当我们使用RDBMS时，为什么Stormcrawler中没有用于存储抓取结果的Bolt？

基于RSS提要中的pubDate/lastBuildDate重新爬网页面

DBMS与RDBMS有何不同？

风暴爬虫没有从网页中检索所有文本内容

不为elasticsearch获取/索引页面的风暴爬虫

在带有Kafka的星火结构流中，火花如何管理多个主题的偏移量

基于特定列将Postgresql行与Mongodb文档连接

NodeJS和MongoDB的模式结构建议

Java中两种异构系统的数据验证

在目录服务器(即LDAP数据库)和RDBMS之间进行选择

为什么我们要在Django中为MongoDB创建模型字段？

本体是否可以适当地取代RDBMS来代替web应用程序？

如何使用SQoop对从RDBMS迁移到HDFS的数据进行测试？

Python3抓取网爬虫

如果我们放弃关系，关系数据库会比它们的NoSQL数据库扩展(或者更好)吗？

hibernate可滚动结果立即获取mysql中的所有行

jQAssistant:商店重置是如何工作的？

面向文档的数据库是否具有完整性？

如何在Postgresql中使用Redis进行LRU缓存？

WCF分页结果和数据导出

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐