答水门
如果是使用Kafka构建,那么就先看一下运行和监控分析模型的参考架构:
这种架构的本质在于它使用Kafka作为收集特征数据的各种数据源,模型合适的模型构建环境以及服务预测的生产应用程序之间的中介。
功能数据从托管它的各种应用程序和数据库中拉入Kafka。此数据用于构建模型。这个环境将根据团队的技能和首选工具集而有所不同。模型构建可以是数据仓库,像Spark或Hadoop这样的大型数据环境,也可以是运行python脚本的简单服务器。该模型可以发布,其中获得相同模型参数的生产应用程序可以将其应用于传入的示例(可能使用Kafka Streams帮助索引功能数据以便按需使用)。生产应用程序可以从卡夫卡接收数据作为管道,或者甚至是Kafka Streams应用程序本身。参见下图:
1.png
卡夫卡成为ML架构中的中枢神经系统,用于饲养,建立,应用和监控分析模型。这确实有很大的好处:
• 数据流水线简化
• 构建分析模块与维护模块脱钩
• 根据需要实时或批量使用
• 分析模型可以部署在性能,可扩展性和关键任务环境中
除了利用Kafka作为可扩展的分布式消息传递代理,还可以添加Kafka生态系统的可选开源组件,如Kafka Connect,Kafka Streams,Confluent REST Proxy,Confluent Schema Registry或KSQL,而不是依靠Kafka生产者和消费者蜜蜂。参见下图:
2.png