我可以将DataStream时间窗口设置为24小时这样的大值吗?这一要求的原因是,我希望根据最新的24小时客户端流量对网站进行数据统计。这样,我可以检查是否有违反安全措施。如果检测到安全冲突,则将实时执行配置的操作,例如阻止源IP或锁定相关用户帐户。
网站的吞吐量约为200 to /s,我认为将时间窗口设置为一个大值会导致内存问题。我对大数据分析没有任何经验。如有任何建议,将不胜感激。
我有一个相当小的数据集(5~gb,150万行),目前存储在Bigtable中,并通过HBase API (Scala)进行访问,以便使用Spark (dataproc)进行数据分析。它都以JSON的形式存储在一个大文本文件中,填充集群需要40~分钟。应该注意的是,我对Hadoop和大数据的世界相当新鲜,所以如果我忽略了显而易见的东西,请原谅我的无知