我有一个由每日批处理创建的dataframe,它运行特定的一天,然后保存在HDFS (Azure Data Lake Gen 2)中。,我没有对数据帧进行分区,因为它只包含一个日期。因此,作为示例,第一天的第一个文件将存储在文件夹中 交易/2019/08/25 然后第二天,它就会在文件夹里 交易/2019/08/26 问题是,当所有数据都被放入时,日期<em
我正在考虑MongoDB保存的图像元数据,从100个相机,记录将保存30天的每台相机。如果一台相机在一天内提供100,000张图像,那么我将保存(100 x 30 x 100000)图像(文档)在MongoDB中的最大值。我计划用以下三个选项来设计模式,并需要您的专家意见/建议,以找到最佳的出路;
1) 分小时收集:创建72000 MongoDB ,即每个摄像机每小时收集