我有sql -基本上连接了两个表,并获得了结果accomm_sk,如果accomm_sk值为空,那么如果没有得到结果,那么sql将在第三个表中得到调用查找。如何在星火sql中使用此函数,因为spark不允许注册为UDF?accommodation_sk from staging.accomm_dim where accomm_hash="{}"'.format(localHash)
accommodationSk_Df=spark.sql_gatew
我已经为我的bigquery项目创建了一个client id和client secret,但是我不知道如何使用它们来成功地将数据从pyspark脚本保存到bigquery表中。是否有一种方法可以使用上的保存选项连接到BigQuery?) at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86) at org.apache.spark.sql:151) at org.apache.<e
我正在做一个简单的项目,在apache spark中使用K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗?