我正在运行一个简单的sparkSQL查询,它在两个数据集上进行匹配,每个数据集大约是500 is。所以整个数据都在1TB左右。
val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ")
adreqPerDeviceid.cache()
adreqPerDeviceid.show()
作业工作良好,直到数据加载(10k任务分配
我试图使用星火红移库,并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。
这是我的代码:
Class.forName("com.amazon.redshift.jdbc41.Driver")
val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]")
val sc = new SparkContext(conf)
import org.apache.spark.sql._
val sqlContext
我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据,然后添加一个列的基础上的一些条件。这是我的代码:
val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")
我正在使用spark-shell来运行Spark的示例(使用Scala),我导入了库
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.{Row, SQLContext, DataFrame}
我得到了错误:
error: object DataFrame is not a member of package org.apache.spark.sql
我不知道为什么,我在上查看了谢谢!
我正在尝试使用databrick connect在IDE中运行我的databricks笔记本中的一些代码。我似乎想不出如何创建一个简单的数据帧。 使用: import spark.implicits._
var Table_Count = Seq((cdpos_df.count(),I_count,D_count,U_count)).toDF("Table_Count","I_Count","D_Count","U_Count") 给出错误消息value toDF is not a member of Seq[(Long, L
我在scala文件中使用import org.apache.spark.sql.DataFrame,然后使用sbt编译,错误是object DataFrame is not a member of package org.apache.spark.sql
在网上搜索了一些解决方案,似乎是spark版本太旧了。但我使用的是最新版本(2.1.1),所以很奇怪。
在REPL中,当I import org.apache.spark.sql.DataFrame时,没有错误。
我的函数是这样的:
def test(df: DataFrame): Unit={
....
}
当我在REPL中定义这个
我已经在基于SP3的SLES 11的HDP2.3上安装了Vora1.2。
当我试图按照新安装和管理手册第2.7节(第34页)对Vora进行基于命令行的验证时,我现在得到了一个新的错误:
scala> vc.sql(testsql)
com.sap.spark.vora.discovery.DiscoveryException: Could not connect to Consul Agent on localhost:8500 : null at
com.sap.spark.vora.discovery.ConsulDiscoveryClient$ConsulDisc