为了研究目的,我正在研究一种体系结构,用于实时(也是离线)数据分析和语义注释。我附加了一个基本的模式:我有一些传感器连接到raspberry pi 3,我想可以用mqqt代理来处理这个链接,比如蚊子。但是,我想收集关于覆盆子的数据,做一些事情,并将它们转发到一组商品硬件中,以执行与Spark或Storm的实时推理(对于哪一种?)然后,这些数据必须存储在NoSql db (可能是Cassandra或HBase )中,供Hadoop集群访问,以执行批处理推理、对它们进行语义数据丰富并在同一db上重新存储。因此,客户端可以查询系统提取有用的信息。
我应该在红砖上使用哪种技术?我的想法是MQQT,但是
我刚刚开始学习数据分析,我正在研究谷歌课程数据分析项目中的周期性案例研究。我正试着做一个geom_col,但我做不到。
首先,我通过合并起始站名和终端站名创建了一个名为“路由”的新列,现在有两种类型的用户“随意”和“成员”。我想让geom_col的前10条路线是共同的,与休闲和会员的旅行并排显示,以便于比较。
因此,我想要一个geom_col,在y轴上的路线,成员和临时用户在轴上的旅行频率,与成员和休闲并排,以便于比较。
这是仅包含相关列的原始数据集的示例:
ride_id route member_casual
1 A member
2 A