MongoDB和数据流:使用MongoDB作为Kafka消费者

数据流 在当今的数据环境中,没有一个系统可以提供所有必需的观点来提供真正的洞察力。从数据中获取完整含义需要混合来自多个来源的大量信息。 与此同时,我们不耐烦地立即获得答案;如果洞察时间超过10毫秒,那么该值就会丢失 - 高频交易,欺诈检测和推荐引擎等应用程序不能等待。这通常意味着在数据进入记录数据库之前分析数据的流入。为数据丢失增加零容忍,挑战变得更加艰巨。 Kafka和数据流专注于从多个消防软管摄取大量数据,然后将其路由到需要它的系统 - 过滤,汇总和分析途中。 本文介绍了Apache Kafka,然后演示了如何使用MongoDB作为流数据的源(生产者)和目标(消费者)。有关此主题的更完整的研究可以在使用Kafka和MongoDB白皮书的Data Streaming中找到。

Apache Kafka

Kafka提供了一种灵活,可扩展且可靠的方法,用于将来自一个或多个生产者的事件数据流传达给一个或多个消费者。事件的例子包括:

定期传感器读数,例如当前温度 用户在网上商店中将商品添加到购物车中 正在发送带有特定主题标签的Tweet

Kafka事件流被组织成主题。生产者选择一个主题来发送给定的事件,而消费者则选择他们从哪个主题中提取事件。例如,金融应用程序可以从一个主题中提取纽约证券交易所股票交易,并从另一个主题中提取公司财务公告,以寻找交易机会。

在Kafka中,话题被进一步分成多个分区来支持扩展。每个Kafka节点(代理)负责接收,存储和传递来自一个或多个分区的针对给定主题的所有事件。这样,一个主题的处理和存储可以在许多Broker中线性扩展。类似地,应用程序可以通过针对给定主题使用许多消费者来扩展,每个拉事件来自离散的一组分区。

图1:Kafka生产者,消费者,主题和分区

MongoDB作为Kafka消费者的一个Java示例 为了将MongoDB作为Kafka消费者使用,接收到的事件必须先转换为BSON文档,然后再存储到数据库中。在这个例子中,事件是代表JSON文档的字符串。这些字符串被转换为Java对象,以便Java开发人员可以轻松使用;那些对象然后被转换成BSON文档。

完整的源代码,Maven配置和测试数据可以在下面找到,但这里有一些亮点;从用于接收和处理来自Kafka主题的事件消息的主循环开始:

Fish类包含辅助方法以隐藏对象如何转换为BSON文档:

在实际的应用程序中,接收到的消息可能会更多 - 它们可以与从MongoDB读取的参考数据结合使用,然后通过发布到其他主题来处理并传递。在这个例子中,最后一步是从mongo shell确认数据已经添加到数据库中:

MongoDB Kafka Consumer的完整Java代码 业务对象 - Fish.java

MongoDB的Kafka使用者 - MongoDBSimpleConsumer.java

请注意,此示例消费者是使用Kafka Simple Consumer API编写的 - 还有一个Kafka高级消费者API,它隐藏了很多复杂性 - 包括管理偏移量。 Simple API为应用程序提供了更多控制权,但需要花费额外的代码。

Maven依赖- pom.xml

测试数据 - Fish.json注入Kafka的测试数据示例如下所示:

对于简单测试,可以使用kafka-console-producer.sh命令将此数据注入到clusterdb-topic1主题中。

原文发布于微信公众号 - IT技术精选文摘(ITHK01)

原文发表时间:2018-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

如何更精准的在 Github 上搜索开源库?你需要这些技巧!

正文共: 2468字 8图 预计阅读时间: 7分钟 一、前言 在日常工作中,我们并不推荐去重复造轮子,通常我们会去搜索一些稳定的第三方开源库来使用。而 Gith...

4687
来自专栏Guangdong Qi

黑技术之百度网盘大文件下载直奔主题

2155
来自专栏進无尽的文章

基础篇-服务器工作实现的浅析

对于一个前端开发的人员来说,了解服务器的基础知识,个人觉得是非常必要的,于是就有一个这篇侧重于Java的服务器相关知识的文章,只是简单介绍对于我也是一个拓展。

1482
来自专栏微服务生态

由多线程内存溢出产生的实战分析

一日凌晨,手机疯狂报警,短信以摧枯拉朽之势瞬间以百条的速度到达,我在睡梦中被惊醒,看到短信的部分内容如下:

1366
来自专栏FreeBuf

绕过网站安全狗拦截,上传Webshell技巧总结 | 附免杀PHP一句话

*本文原创作者:1_2,本文属FreeBuf原创奖励计划,未经许可禁止转载 这篇文章我介绍一下我所知道的绕过网站安全狗上传WebShell的方法。 思路是:修改...

4549
来自专栏Python

计算机基础之计算机硬件系统

一.计算机硬件系统概述 所谓计算机硬件系统,就是指构成计算机看得见的,摸得着的实际物理设备。 常见的计算机硬件组成主要由下图各部件组成: ? 现代计算机的结构更...

2405
来自专栏企鹅号快讯

分布式金融系统调优实践

引言: 某银行采用分布式架构对其核心产品系统进行重构,重构后该系统由多个技术模块和业务模块组成,存在联机交易、异步消息、自动任务、批量等交易形态。各模块之间交互...

2458
来自专栏Albert陈凯

2018-11-05 传统关系数据库高可用的缺失

关系数据库的事务(transaction)是一组操作序列,比如读,插入,删除,更新等等。事务有四个基本要素,即原子性(Atomicity)、一致性(Consis...

1135
来自专栏MongoDB中文社区

MongoDB 3.6中的新功能 (1) - 发展的速度

New in MongoDB 3.6. What’s New in MongoDB 3.6. Part 1 – Speed to Develo

1491
来自专栏JAVA高级架构

微服务架构组件分析

服务描述:服务调用首先解决的问题就是服务如何对外描述。 常用的服务描述方式包括 RESTful API、XML 配置以及 IDL 文件三种。

1364

扫码关注云+社区

领取腾讯云代金券