我已经创建了两个数据帧,这是从蜂窝表(PC_ITM和ITEM_SELL)和大的,我经常使用的SQL查询注册为table.But,因为它们是大的,这需要很多时间来获得查询result.So我已保存为拼图文件,然后读取它们和注册为临时table.But我仍然没有得到良好的性能,所以我广播了这些数据帧,然后注册为表,如下所示。PC_ITM_DF=sqlContext.parquetFile("path")
val PC_ITM_BC=sc.broadcas
我尝试了两种方法来找出不同的行与地板,但它似乎不工作。Attemp 1: Dataset<Row> df = sqlContext.read().parquet("location.parquet").distinct();Cannot havebut the type of column canvasHashes is map<string,string>;;Dataset<Row> df = sqlContext
我在Greenplum DB中有数DB的结构化数据。我需要在我的数据上运行本质上是MapReduce作业的东西。我考虑了Pivotal HD + Spark,因为我正在使用Scala,而Spark基准测试是一个令人惊叹的因素。但我认为这背后的数据存储区HDFS的效率将低于Greenplum。(请注意“我相信”。因此,为了与Greenplum存储层保持一致,我研究了Pivotal的HAWQ,它基本上是Greenplum上的Hadoop和