如果id已经存在,则添加新记录时,新记录替换旧记录,id在数据集中是唯一的。很多时候,我需要得到分类数据(按价格)。像前100或25-50的位置在数据集中。好消息是,每次我需要排序的数据都是从数据集开始的。(我在可能的情况下使用了类似的compareTo(Object ))。当需要数据时对其进行排序。太慢了。
Has
我希望使用Spark动态地将数据从目录写入分区。这是示例代码。作业是成功地完成时,每个执行器的高内存(15 to ),但太长的时间来完成。
我尝试过使用重新分区,希望它能够在分区之间均匀地分配数据。剩余的部件文件没有记录(只有Parquet元数据,38364字节)。DataFrame/RDD的不同分区?由于预期的结果只是基于键将数据写入不同的子目录(Hive的</