MongoDB和数据流:使用MongoDB作为Kafka消费者

数据流 在当今的数据环境中,没有一个系统可以提供所有必需的观点来提供真正的洞察力。从数据中获取完整含义需要混合来自多个来源的大量信息。 与此同时,我们不耐烦地立即获得答案;如果洞察时间超过10毫秒,那么该值就会丢失 - 高频交易,欺诈检测和推荐引擎等应用程序不能等待。这通常意味着在数据进入记录数据库之前分析数据的流入。为数据丢失增加零容忍,挑战变得更加艰巨。 Kafka和数据流专注于从多个消防软管摄取大量数据,然后将其路由到需要它的系统 - 过滤,汇总和分析途中。 本文介绍了Apache Kafka,然后演示了如何使用MongoDB作为流数据的源(生产者)和目标(消费者)。有关此主题的更完整的研究可以在使用Kafka和MongoDB白皮书的Data Streaming中找到。

Apache Kafka

Kafka提供了一种灵活,可扩展且可靠的方法,用于将来自一个或多个生产者的事件数据流传达给一个或多个消费者。事件的例子包括:

定期传感器读数,例如当前温度 用户在网上商店中将商品添加到购物车中 正在发送带有特定主题标签的Tweet

Kafka事件流被组织成主题。生产者选择一个主题来发送给定的事件,而消费者则选择他们从哪个主题中提取事件。例如,金融应用程序可以从一个主题中提取纽约证券交易所股票交易,并从另一个主题中提取公司财务公告,以寻找交易机会。

在Kafka中,话题被进一步分成多个分区来支持扩展。每个Kafka节点(代理)负责接收,存储和传递来自一个或多个分区的针对给定主题的所有事件。这样,一个主题的处理和存储可以在许多Broker中线性扩展。类似地,应用程序可以通过针对给定主题使用许多消费者来扩展,每个拉事件来自离散的一组分区。

图1:Kafka生产者,消费者,主题和分区

MongoDB作为Kafka消费者的一个Java示例 为了将MongoDB作为Kafka消费者使用,接收到的事件必须先转换为BSON文档,然后再存储到数据库中。在这个例子中,事件是代表JSON文档的字符串。这些字符串被转换为Java对象,以便Java开发人员可以轻松使用;那些对象然后被转换成BSON文档。

完整的源代码,Maven配置和测试数据可以在下面找到,但这里有一些亮点;从用于接收和处理来自Kafka主题的事件消息的主循环开始:

Fish类包含辅助方法以隐藏对象如何转换为BSON文档:

在实际的应用程序中,接收到的消息可能会更多 - 它们可以与从MongoDB读取的参考数据结合使用,然后通过发布到其他主题来处理并传递。在这个例子中,最后一步是从mongo shell确认数据已经添加到数据库中:

MongoDB Kafka Consumer的完整Java代码 业务对象 - Fish.java

MongoDB的Kafka使用者 - MongoDBSimpleConsumer.java

请注意,此示例消费者是使用Kafka Simple Consumer API编写的 - 还有一个Kafka高级消费者API,它隐藏了很多复杂性 - 包括管理偏移量。 Simple API为应用程序提供了更多控制权,但需要花费额外的代码。

Maven依赖- pom.xml

测试数据 - Fish.json注入Kafka的测试数据示例如下所示:

对于简单测试,可以使用kafka-console-producer.sh命令将此数据注入到clusterdb-topic1主题中。

原文发布于微信公众号 - IT技术精选文摘(ITHK01)

原文发表时间:2018-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

如何更精准的在 Github 上搜索开源库?你需要这些技巧!

正文共: 2468字 8图 预计阅读时间: 7分钟 一、前言 在日常工作中,我们并不推荐去重复造轮子,通常我们会去搜索一些稳定的第三方开源库来使用。而 Gith...

2066
来自专栏编程坑太多

『高级篇』docker之了解kubernetes(31)

PS:(梳理概念)pod里面包括N个容器,service里面包括pod,Deployment可能包括service或者是pod。

1364
来自专栏Linyb极客之路

高并发的核心技术-幂等的实现方案

一、背景 我们实际系统中有很多操作,是不管做多少次,都应该产生一样的效果或返回一样的结果。 例如: 1. 前端重复提交选中的数据,应该后台只产生对应这个...

1133
来自专栏企鹅号快讯

分布式金融系统调优实践

引言: 某银行采用分布式架构对其核心产品系统进行重构,重构后该系统由多个技术模块和业务模块组成,存在联机交易、异步消息、自动任务、批量等交易形态。各模块之间交互...

2308
来自专栏企鹅号快讯

如何更精准的在 Github 上搜索开源库?你需要这些技巧!

正文共: 2468字 8图 预计阅读时间: 7分钟 一、前言 在日常工作中,我们并不推荐去重复造轮子,通常我们会去搜索一些稳定的第三方开源库来使用。而 Gith...

4107
来自专栏Guangdong Qi

黑技术之百度网盘大文件下载直奔主题

2095
来自专栏MongoDB中文社区

MongoDB 3.6中的新功能 (1) - 发展的速度

New in MongoDB 3.6. What’s New in MongoDB 3.6. Part 1 – Speed to Develo

1301
来自专栏Python

计算机基础之计算机硬件系统

一.计算机硬件系统概述 所谓计算机硬件系统,就是指构成计算机看得见的,摸得着的实际物理设备。 常见的计算机硬件组成主要由下图各部件组成: ? 现代计算机的结构更...

2225
来自专栏老九学堂

进程与线程的区别?

进程是什么? 程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是...

36911
来自专栏技术博文

linux下使用ffmpeg将amr转成mp3

接到需求要在Linux环境下将amr转换为mp3,windows下直接使用第三方jar包封装的exe方法即可,但不支持Linux,上网爬完资料说是用ffmpeg...

3597

扫码关注云+社区