基于非空值在spark dataframe (scala)中加入_对dataframe中的空值进行计数: scala spark_在Spark Join中包含空值[Scala] - 腾讯云开发者社区

、、

我正在运行一个简单的sparkSQL查询，它在两个数据集上进行匹配，每个数据集大约是500 is。所以整个数据都在1TB左右。 val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ") adreqPerDeviceid.cache() adreqPerDeviceid.show() 作业工作良好，直到数据加载(10k任务分配

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

使用ML管道进行字符串匹配时抛出错误，无法执行用户定义的函数($anonfun$1：(vector) => array<vector>)

、、

我正在尝试对两个数据帧进行字符串匹配。假设dataframe1包含X个句子和dataframe2 Y个句子。我需要检查一下，Dataframe1中的任何句子都与Dataframe2匹配。我正在尝试使用ML管道，如下所示： def match_names(df_1, df_2): pipeline = Pipeline(stages=[ RegexTokenizer( pattern="", inputCol="name", outputCol="tokens", minTokenLength=1

浏览 2提问于2019-04-11得票数 1

1回答

创建空的dataframe Java Spark

、、

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

我如何将RDD[Map[String，Any]]转换为dataframe？

、、、、

我有一个RDD[MapString，Any]，我正在尝试将它转换为Dataframe。我没有可以指定Dataframe的架构。我试着做了一个rdd.toDF，但是没有帮助。它出现了一个错误，如下所示。 Exception in thread "main" java.lang.ClassNotFoundException: scala.Any at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.ja

浏览 2提问于2019-11-14得票数 2

1回答

"Exchange散列分区“在spark中是如何工作的

、、、、

我有一个数据集，我想写，排序到拼板文件，以获得利益后，请求这些文件在星火，包括谓词下推。目前，我使用按列重新分区和分区数将数据移动到特定分区。该列标识相应的分区(从0开始到(固定的) n)。结果是scala/some正在生成一个意外的结果，并且创建了更少的分区(其中一些分区是空的)。也许是哈希碰撞？为了解决这个问题，我试图找出原因，并试图找到解决办法。通过将dataframe转换为rdd并将partitionBy与HashPartitioner一起使用，我找到了一个解决办法。令我惊讶的是:我得到了预期的结果。但是，对我来说，将dataframe转换为RDD并不是一个解决方案，因为它需要太多

浏览 0提问于2019-01-16得票数 0

回答已采纳

1回答

为每个循环嵌套两个DataFrame

、、

foreach循环嵌套的DataFrams迭代会抛出一个NullPointerException： def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = { val leftCols: Array[String] = leftDF.columns val riteCols: Array[String] = riteDF.columns leftCols.foreach { ltColName => leftDF.select(ltColName).foreach

浏览 1提问于2019-05-08得票数 2

回答已采纳

3回答

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id已设置

、、、

我使用的是spark 1.6，当我运行以下代码时遇到了上面的问题： // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import scala.concurrent.ExecutionContext.Implicits.global import java.util.Properties import scala.concurrent.Future // Se

浏览 2提问于2016-01-11得票数 16

1回答

Vora无法连接领事代理

、、

我已经在基于SP3的SLES 11的HDP2.3上安装了Vora1.2。当我试图按照新安装和管理手册第2.7节(第34页)对Vora进行基于命令行的验证时，我现在得到了一个新的错误： scala> vc.sql(testsql) com.sap.spark.vora.discovery.DiscoveryException: Could not connect to Consul Agent on localhost:8500 : null at com.sap.spark.vora.discovery.ConsulDiscoveryClient$ConsulDisc

浏览 0提问于2016-04-05得票数 0

回答已采纳

1回答

Kafka Connect JDBC : Oracle NUMBER字段的精度为64，无法从火花读取

、、、、

我们使用Kafka从Oracle数据源中摄取数据，并以AVRO格式写入HDFS。在Kafka模式注册表中，其中一个数据源的模式如下所示： { "type": "record", "name": "ConnectDefault", "namespace": "io.confluent.connect.avro", "fields": [ { "name": "ID", "type": [

浏览 4提问于2019-10-23得票数 0

3回答

如何为数据类型为double的列计算spark sqlContext中位数

、、

我已经给出了示例表。我想从"value“列获得每组"source”列的中位数。其中，源列是字符串，DataType值列是双DataType scala> sqlContext.sql("SELECT * from tTab order by source").show +---------------+-----+ | Source|value| +---------------+-----+ |131.183.222.110

浏览 10提问于2015-12-30得票数 7

2回答

Spark DataFrame对数据集为空

、

从MS SQL数据库导入数据时，可能会出现空值。在Spark中，DataFrames能够处理空值。但是，当我尝试将DataFrame转换为强类型Dataset时，收到编码器错误。下面是一个简单的例子： case class optionTest(var a: Option[Int], var b: Option[Int]) object testObject { def main(args: Array[String]): Unit = { import spark.implicits._ val df = spark.sparkContext.parallelize(

浏览 2提问于2017-03-31得票数 0

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

、、、

我用的是火花1.5。我有两份表格的数据： scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = [person_id: int, family_id: int] libriFirstTable50Plus3DF有766,151记录，linkPersonItemLessThan

浏览 5提问于2016-12-13得票数 71

回答已采纳

1回答

如何在Spark中将dataframe作为函数参数传递

、、

我正在实现一个程序，它将整个数据帧作为参数。我知道这可能不是Spark的支持，但我想知道有没有好的方法来解决我的问题。我有一个Spark数据框，如下所示： Item_sale_table item_id date Sale Amount aaa 3-11 20 aaa 3-12 21 aaa 3-13 28 ... ... ... bbb 3-11 17 bbb 3-12 12 ...

浏览 0提问于2016-12-10得票数 0

1回答

SparkR中的scala.MatchError (使用Spark SQL的DataFrame)

、、、

浏览 2提问于2016-07-27得票数 1

2回答

模式不匹配-写入Delta的火花DataFrame

、、

当将dataframe写入增量格式时，由此产生的增量似乎不遵循所编写的dataframe的架构。具体来说，字段的'nullable‘属性在结果的增量中似乎总是'true’，而不管源dataframe模式如何。这是意料之中的还是我在这里犯了一个错误？是否有一种方法可以使所编写的增量的模式与源df完全匹配？ scala> df.schema res2: org.apache.spark.sql.types.StructType = StructType(StructField(device_id,StringType,false), StructField(val1,Stri

浏览 1提问于2020-05-19得票数 0

回答已采纳

2回答

火花:围绕嵌套的RDD工作

、、

有两张桌子。第一个表有两个字段book1和book2的记录。这些书通常是一对一地一起阅读的。第二个表包含这些书籍的books和readers列，其中books和readers分别是图书ID和阅读器ID。对于第二个表中的每一个读者，我需要在对表中找到相应的书籍。例如，如果读者阅读书籍1,2,3，而我们有对(1,7)，(6,2)，(4,10)，则该阅读器的结果列表应该有书籍7,6。我首先根据读者对书籍进行分组，然后迭代对。每本书成对，我试着与用户列表中的所有书籍匹配： import org.apache.spark.SparkConf import org.apache.spark.SparkC

浏览 2提问于2015-06-09得票数 0

回答已采纳

1回答

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

、、、、

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。 java.lang.Exception: Cassandra Writer Failed. java.lang.IllegalArgumentException: Unsupported type: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce at com.datastax.spark.connector.types.ColumnType$.u

浏览 28提问于2016-08-09得票数 3

1回答

连接器不映射数据

、

我试图在星火应用程序中映射来自mongodb连接器的数据。在此之前，我没有其他错误，所以我假设到mongodb的连接是成功的。我使用以下代码来映射： JavaRDD<AppLog> logs = documents.map( new Function<Tuple2<Object, BSONObject>, AppLog>() { public AppLog call(final Tuple2<Object, BSONObject> tuple) { AppLog log = new AppLog();

浏览 5提问于2016-10-13得票数 1

回答已采纳

1回答

如何在Scala中将Spark DataFrames逐个添加到Seq()中

我使用以下命令创建了一个空的Seq() scala> var x = Seq[DataFrame]() x: Seq[org.apache.spark.sql.DataFrame] = List() 我有一个名为createSamplesForOneDay()的函数，它返回一个DataFrame，我想将它添加到这个Seq() x中。 val temp = createSamplesForOneDay(some_inputs) // this returns a Spark DF x = x + temp // this throws an error 我得到下面的错误- scala&

浏览 57提问于2019-07-02得票数 0

回答已采纳

1回答

拆分DataFrame Scala

、

浏览 0提问于2018-04-24得票数 0

回答已采纳

2回答

Spark SQL中的udf

、、、

我有两个数据帧: dataDf和regexDf。dataDf有大量记录，而regexDf有两列正则表达式。我的问题是，我需要根据regexDef中的两列匹配正则表达式的两列来过滤dataDf。我想出了这个 dataDf.registerTempTable("dataTable") sqlContext.udf.register("matchExpressionCombination", matchExpressionCombination _) val matchingResults = sqlContext.sql("SELECT * FROM da

浏览 0提问于2015-10-14得票数 1

1回答

火花:从嵌套DataFrame打印元素

、、

我试图从包含嵌套值的DataFrame中打印特定元素：这是我得到的Spark SQL DataFrame： scala>result org.apache.spark.sql.DataFrame = [P1: struct<t1:tinyint,t2:tinyint,t3:smallint,t4:int>, P2:struct<k1:tinyint,k2:int>] 它包括： scala>result.take(3).foreach(println) [[15,78,60,1111111],[10,7525619]] [[15,78,60,2222222]

浏览 4提问于2015-12-02得票数 0

回答已采纳

2回答

星火1.3.1 (PySpark)和MongoDB 3.4中的错误

、、

我有一个非常简单的脚本来持久化带有MongoDB中两列的数据文件： from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql.functions import col, udf from datetime import datetime sparkConf = SparkConf().setMaster("local").setAppName("Wiki-Analyzer

浏览 4提问于2017-03-30得票数 0

回答已采纳

1回答

Spark Scala -处理空DataFrame

、

我有一个特定的要求，其中我需要检查空的DataFrame。如果为空，则填充默认值。这是我尝试过的，但没有得到我想要的。 def checkNotEmpty(df: org.apache.spark.sql.DataFrame, col: String):org.apache.spark.sql.DataFrame = { if (!df.rdd.isEmpty()) df else df.na.fill(0, Seq(col)) } val age = checkNotEmpty(w_feature_md.filter("age='22'"

浏览 4提问于2016-09-16得票数 2

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

火花中Json列的散列值

、、、

我有Cassandra表，在最后一列中名为"fullJson“的是JSON日志文件。我需要使用userID在JSON行中使用MD5哈希值。这是我的方法，但对某些人来说，我总是在某个时刻陷入困境。装载卡桑德拉表： scala> val rawCass = sc.cassandraTable[cassFormat]("keyspace", "logs").repartition(200) rawCass: org.apache.spark.rdd.RDD[cassFormat] = MapPartitionsRDD[73] at coalesce at

浏览 0提问于2019-08-31得票数 1

1回答

为什么filter默认删除spark dataframe上的空值？

、、、

包含null值的基本scala集合上的filter具有以下(且相当直观的)行为： scala> List("a", "b", null).filter(_ != "a") res0: List[String] = List(b, null) 然而，我非常惊讶地发现以下过滤器删除了spark dataframe中的空值： scala> val df = List(("a", null), ( "c", "d")).toDF("A", "B") scala&g

浏览 27提问于2018-03-05得票数 9

回答已采纳

1回答

如何实现火花放电的排名指标？

、、、

我是PySpark的新手。我正在尝试实现ALS (交替最小二乘矩阵因式分解)，以便使用python和pyspark.mllib.recommendation pakage进行推荐。根据，我发现我应该使用排名指标来评估系统的隐式反馈。但是不幸的是，在python部分没有更新文档，当我尝试自己实现它时，我在RDD类型上遇到了一些不同的问题。请帮我找到窃听器。我不确定我是否应该在createDataFrame上使用createDataFrame，或者我应该使用另一个函数来使rdd类型. def build_model_Als(self): data = self.load_from_redis

浏览 2提问于2019-12-18得票数 2

1回答

在加入2个dataframe时重写dataframe中的值

、、

在下面的示例中，我希望用Dataframe中的相应值(如果存在的话)覆盖Spark中的值。有什么方法可以使用星火(Scala)来完成吗？ Dataframe A ID Name Age 1 Paul 30 2 Sean 35 3 Rob 25 Dataframe B ID Name Age 1 Paul 40 结果 ID Name Age 1 Paul 40 2 Sean 35 3 Rob 25

浏览 13提问于2022-04-25得票数 1

回答已采纳

2回答

如何将两个DataFrame与星火中的组合列连接起来？

、、、

我不明白我怎么能彼此加入这样的2 DataFrame。首先，DataFrame存储关于用户向服务中心请求时间的信息。让我们把这个叫做DataFrame df1 +-----------+---------------------+ | USER_NAME | REQUEST_DATE | +-----------+---------------------+ | Alex | 2018-03-01 00:00:00 | | Alex | 2018-09-01 00:00:00 | | Bob | 2018-03-01 00:00:00 | |

浏览 0提问于2019-01-18得票数 0

2回答

Python Spark查询配置单元仅返回架构

、、、、

当我从Hive中选择data时，它会返回一个dataframe，但我不能访问模式以外的任何内容。 from spark import HiveContext, SQLContext hive_context = HiveContext(sc) hive_context.sql("USE myDatabase") data = hive_context.sql("SELECT * FROM myTable") data.show() 当我检查它返回的"data“类型时： <class 'pyspark.sql.dataframe.DataF

浏览 1提问于2018-04-19得票数 0

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。示例查询1: SELECT DISTINCT target_person FROM INFORMATION_SCHEMA.COLUMNS WHERE COLUMN_NAME IN ('columnA','ColumnB') AND TABLE_SCHEMA='ad_facebook' 示例查询2: SELECT count(*) FROM information_schema.columns WHERE table_n

浏览 6提问于2018-09-04得票数 1

3回答

某些(空)到字符串类型可为空的scala.matcherror

、

我有一个在数据中有一些空值的RDD[(Seq[String], Seq[String])]。转换为dataframe的RDD如下所示 +----------+----------+ | col1| col2| +----------+----------+ |[111, aaa]|[xx, null]| +----------+----------+ 以下是示例代码： val rdd = sc.parallelize(Seq((Seq("111","aaa"),Seq("xx",null)))) val df = rdd.to

浏览 2提问于2017-04-06得票数 3

4回答

基于星火数据格式scala中列值的行筛选

、、、

我有一个数据(火花)： id value 3 0 3 1 3 0 4 1 4 0 4 0 我想创建一个新的dataframe： 3 0 3 1 4 1 需要删除每个id1(值)后的所有行，我尝试使用(Scala)中的窗口函数。但是找不到一个solution.Seems，我走错了方向。我正在寻找Scala.Thanks的解决方案使用monotonically_increasing_id输出 scala> val data = Seq((3,0),(3,1),(3,0),(4,1),(4,0),(4,0)).toDF("id&

浏览 6提问于2016-04-02得票数 12

回答已采纳

1回答

使用scala将一行添加到空的数据文件中

、、、

我试图使用scala自动地将随机数据加载到一个空数据中。 import org.apache.spark.sql.DataFrame import org.apache.spark.sql.Row import org.apache.spark.rdd.RDD val df = spark.sql("select * from test.test") val emptyDF= spark.createDataFrame(spark.sparkContext.emptyRDD[Row], df.schema) 在这里，我尝试用测试表模式创建一个空的dataframe。在本例中，

浏览 0提问于2018-10-22得票数 2

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

从avro文件中获取火花dataframe列中每一行的数据

、、

我正在尝试处理我的dataframe中的一个列，并从每个条目对应的avro文件中检索一个度量。基本上，我想做以下几点：读取路径列的每一行，这是作为数据读取到avro文件中的avro文件的路径&获取精度度量，它以Struct的形式创建一个名为的新列，该列具有精度度量。这也可以看作是应用spark.read.format("com.databricks.spark.avro").load(avro_path)，但适用于Path列中的每一行。这是我的输入数据： +----------+-----+--------------------------+ |timestam

浏览 4提问于2022-07-01得票数 0

1回答

Spark SQL超时

、、、、

我正在尝试在Spark独立集群上运行一个相对简单的Spark SQL命令 select a.name, b.name, s.score from score s inner join A a on a.id = s.a_id inner join B b on b.id = s.b_id where pmod(a.id, 3) != 3 and pmod(b.id, 3) != 0 表的大小如下 A: 25,000 B: 2,500,000 score: 25,000,000 因此，我希望得到的结果是25,000,000行。我想用Spark SQL运行这个查询，然后处理每一行。下面是相关的sp

浏览 0提问于2014-12-05得票数 1

2回答

从Spark访问内核化远程HBASE集群

、、、、

我正在尝试使用从Spark读取来自kerberized实例的数据。我的集群配置本质上类似于：我将客户端计算机上的星火作业提交给远程spark独立集群，该作业试图从单独的HBASE集群中读取数据。如果我通过直接在我的客户端上运行带有master=local*的Spark集群来绕过独立集群，只要我第一次从客户端启动，就可以访问远程HBASE集群。但是，当我将我的主服务器设置为远程集群时，所有其他的信任都是相同的，我在org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:43)接收一个空指针异常(下面

浏览 8提问于2016-08-22得票数 0

1回答

按聚合(求和)双进行分组在spark中产生不一致的结果

、、、、

我在Scala和Spark2.0中看到了一些不一致的行为，它们聚集双倍，然后根据聚合值进行分组。这只发生在集群模式下，我相信这与双数相加产生一个稍微不同的数字的顺序有关。在初始聚类后，我根据求和值对结果和分组进行分析。有时看到1行，有时根据小数点20位左右的值，看到2行。我无法显示完整的示例，但这里是REPL中的简化/人为版本，它的行为正确，但显示了我正在尝试做的事情： scala> val df = List((1, "a", 27577661.013638947), (1, "a", 37577661.013538947)).toDF("a&#

浏览 3提问于2017-03-07得票数 0

回答已采纳

2回答

将数据存储到本地文件系统将导致结果为空。

、

我们在AWS EMR上运行spark 2.3.0。以下DataFrame "df“是非空的，大小适中： scala> df.count res0: Long = 4067 下面的代码可以很好地将df编写到hdfs scala> val hdf = spark.read.parquet("/tmp/topVendors") hdf: org.apache.spark.sql.DataFrame = [displayName: string, cnt: bigint] scala> hdf.count res4: Long = 4067 但是，使用

浏览 0提问于2018-07-30得票数 18

回答已采纳

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1.txt") 16/12/29 11:55:20 text.TextRelation:在驱动程序上列出text.TextRelation base_df.show(10) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11

浏览 5提问于2016-12-29得票数 1

1回答

运行火花-使用Gradle从Intellij中移出红移

、

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

2回答

通过DataFrames使用spark-csv获取NullPointerException

、、

在中运行的示例Java代码如下: import org.apache.spark.sql.SQLContext；import org.apache.spark.sql.types.*； SQLContext sqlContext = new SQLContext(sc); StructType customSchema = new StructType( new StructField("year", IntegerType, true), new StructField("make", StringType, true), new S

浏览 2提问于2015-12-21得票数 8

1回答

奴隶的迷失和缓慢的加入火花

、、、

我在一个公共列上连接了两个dataframes，然后运行了一个show方法： df= df1.join(df2, df1.col1== df2.col2, 'inner') df.show() 然后，join运行得非常慢，最后引发了一个错误:奴隶丢失。 Py4JJavaError: An error occurred while calling o109.showString. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage

浏览 4提问于2016-11-16得票数 0

1回答

如何在Spark中的空Dataframe中添加行记录

、、、

我正在尝试在Spark scala中创建一个空的dataFrame，并希望创建自己的模式并将记录加载到其中。下面是示例 val emptyDf = spark.emptyDataFrame val loadEmptyDf = emptyDf.withColumn("col1", lit("yes"), "col2", lit("no")) 但是我无法获得在创建模式时放置的默认值当前输出： |col1|col2| | | | 预期输出： |col1|col2| |yes | no |

浏览 32提问于2021-03-13得票数 0

4回答

Spark scala删除仅包含空值的列

、、

有没有一种方法可以删除spark dataFrame中只包含空值的列？(我使用的是scala和Spark 1.6.2) 目前我正在做这件事： var validCols: List[String] = List() for (col <- df_filtered.columns){ val count = df_filtered .select(col) .distinct .count println(col, count) if (count >= 2){ validCols ++= List(col) } } 构建至少包含两个不

浏览 6提问于2016-09-11得票数 7

2回答

Scala对象应用方法从未在星火作业中调用

、、、

我正试图在星火应用程序中将我的逻辑解耦。我为UDF定义、和UDF声明创建了单独的类。 UDF声明： import OPXUdfDefinitions._ object OPXUdf extends Serializable { def apply(argsInput: Map[String, String]) = { OPXUdfDefinitions(argsInput) } val myUDF = udf(myDef _) } UDF定义： object OPXUdfDefinitions extends Serializable{ private var ar

浏览 2提问于2019-05-07得票数 0

1回答

如何将VectorAssembler与Spark关联工具一起使用？

、、

我试图在spark scala中关联两列数据帧，方法是将原始数据帧的列通过管道传输到VectorAssembler中，然后是关联实用程序。由于某些原因，Vector汇编程序似乎生成了空向量，如下所示。这是我到目前为止所掌握的。 val numericalCols = Array( "price", "bedrooms", "bathrooms", "sqft_living", "sqft_lot" ) val data: DataFrame = HousingD

浏览 17提问于2020-07-29得票数 0