需要在结构化流中对UDF中的表执行一些查询。问题是,在UDF内部,如果我尝试使用spark.sql,就会得到空指针异常。这里最好的方法是什么。基本上,我需要从一个表中流,然后使用这些数据从另一个表执行一些范围查询。val query = "select count(*) from appleMart where appleId='"+appleId+"'"
val appleCount = spark.sql
from multiprocess import Poolsql_scripts = ["select * from t1","select * from t2"] spark.sql(sql_script)p.map(transform,sql_scripts)It显示您试图从广播变量有关更多信息,请参阅SPARK-5063
我希望
使用外部表
2018-08-29 13:52:00警告TrashPolicyDefault:141代码样本spark.sql("CREATE EXTERNAL TABLE table_1 (id string, name string) PARTITIONED BY (key1 int)stored as parquet location 'hdfs://nameservice1&
问题在于如何在py火花代码中使用hive jar。我们正在遵循以下一组标准步骤spark.sql("create temporary function public_upper_case_udfas 'com.hive.udf.PrivateUpperCase' using JAR 'gs://hivebqjarbucket/UpperCase.jar'")
调用<