此外,还有一个问题
Question: Which of the following are good applications for Apache Spark?Apache Spark uses SQL to read and performs analysis on large files, but it is not a Database.如果我们可以使用spark创建一个数据库,那么为什么我们也不能更改它的记录呢?
客户端根据数据包(Kafka)发布不同主题的数据,并将其传递给流式分析管道(Spark)。Kafka、Spark和HDFS可以通过亚马逊EC2 (或Google使用连接器)进行可选部署。
我读到了谷歌云DataFlow,云存储,BigQuery和Pub。此外,它还将利用DataFlow管道进行分析和云存储,并使用cloudera火花连接器进行数据流分析,并使用spark for ML (预测API有点限制性)。可以在Google云上部署Kafka/Sp