大数据架构的目的是处理传统数据库系统无法处理的过大或复杂的数据的摄取、处理和分析。
大数据解决方案通常涉及以下一种或多种工作负载类型:
大多数大数据架构包括以下部分或全部组件:
Azure包含许多可以在大数据架构中使用的服务。大致可分为两类:
这些选项并不相互排斥,许多解决方案都将开源技术与Azure服务结合起来。
当你需要考虑这种架构风格时:
物联网是大数据解决方案的一个特殊子集。下图显示了物联网可能的逻辑架构。该图强调了体系结构的事件流组件。
云网关使用可靠的低延迟消息传递系统在云边界接收设备事件。
设备可以直接将事件发送到云网关,或者通过字段网关。field gateway是一种专门的设备或软件,通常与设备协同使用,接收事件并将其转发到云网关。字段网关还可以预处理原始设备事件,执行过滤、聚合或协议转换等功能。
提取数据之后,事件经过一个或多个流处理器,这些处理器可以路由数据(例如,到存储)或执行分析和其他处理。
下面是一些常见的处理类型。(这份清单当然不是详尽无遗的。)
灰色阴影的方框显示了物联网系统的组件,这些组件与事件流没有直接关系,但是为了完整起见,这里包含了这些组件。