基于已有列在rdd中创建列

基于已有列在RDD中创建列是指在分布式数据集（RDD）中添加新的列。RDD是Spark中的基本数据结构，它代表了分布式的不可变数据集合。

在Spark中，可以使用DataFrame或Dataset来处理结构化数据，而不仅仅是使用RDD。DataFrame是一种以列为中心的数据结构，类似于传统数据库中的表格，而Dataset是DataFrame的扩展，提供了类型安全的API。

要基于已有列在RDD中创建列，可以使用DataFrame或Dataset的转换操作。以下是一种可能的方法：

将RDD转换为DataFrame或Dataset：
将RDD转换为DataFrame或Dataset：
使用DataFrame或Dataset的API来创建新的列：
使用DataFrame或Dataset的API来创建新的列：

在上述代码中，withColumn方法用于创建新的列，第一个参数是新列的名称，第二个参数是新列的表达式。表达式可以使用Spark提供的内置函数（如expr）或使用列名进行算术运算。

基于已有列在RDD中创建列的优势是可以方便地进行数据转换和处理，以及进行复杂的计算和分析。这种方法适用于需要对数据进行加工、转换和计算的场景，例如特征工程、数据清洗、数据聚合等。

腾讯云提供了多个与Spark相关的产品和服务，例如TencentDB for Apache Spark、Tencent Cloud Data Lake Analytics等。您可以通过访问腾讯云官方网站获取更多关于这些产品的详细信息和介绍。

页面内容是否对你有帮助？

有帮助

没帮助

如何在Scala/Spark中使用字符串作为表达式/参数？

scala、apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

我正在尝试使用dataframe中的现有列向dataframe中添加更多的列。然而，Scala是不可变的，因此很难进行迭代。因此，我想出了一个for循环来输出字符串(参见下面的示例代码，它存储了我可以使用的整个语句)。 val train_df = sqlContext.sql("select * from someTable") /*for loop output is similar to the Str variable as below*/ var Str = ".withColumn(\"newCol1\",$\"col1\"

浏览 0提问于2018-08-15得票数 0

回答已采纳

1回答

使用UDF函数内的方法Scala

scala、apache-spark、apache-spark-sql、user-defined-functions

我希望在用户设计的函数中使用位于另一个类中的方法，但它不起作用。我有一个方法： def traitementDataFrameEleve(sc:SparkSession, dfRedis:DataFrame, domainMail:String, dir:String):Boolean ={ def loginUDF = udf((sn: String, givenName:String) => { LoginClass.GenerateloginPersone(sn,givenName,dfr) }) dfEleve.

浏览 0提问于2017-04-25得票数 0

2回答

将大型数据帧重塑为更宽的数据帧火花

scala、apache-spark

我想要转换这个dataFrame； +----+-------+---+--- |col1|col2 |RC1|RC2 +----+-------+---+--- |A |B | 1| 0 |C |D | 1| 1 +----+-------+---+--- 为了这个！ +----+-------+------+ |col1|col2 |newCol| +----+-------+------+ |A |B | RC1 | |C |D | RC1 | |C |D | RC2 | +----+------

浏览 0提问于2020-07-17得票数 0

1回答

PySpark 3- UDF从列表列中删除项

python、apache-spark、pyspark、user-defined-functions

我正在一个dataframe中创建一个列，它是一个由4个结构组成的数组。它们中的任何一个都可以是空的，但是由于我需要在这个数组中有固定数量的项，所以我需要在这个事实之后清除空项。但是，当试图使用UDF删除空项时，我会遇到一个错误。下面是一个例子：创建数据框架，注意其中一个"a“值为None。 spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame([{"a": "x", "b": "y", "c": "3"

浏览 1提问于2021-05-28得票数 0

回答已采纳

3回答

如何过滤火花数据中的布尔字段？

scala、apache-spark、hadoop

我的数据框架中有三列。在这第二和第三是布尔字段。我想过滤掉那些是真的值。我尝试过这个nn.filter(col("col3")===true).show，但是它说无效的列名"true“。我的密码有什么问题？有什么帮助吗？我的密码： scala> nn.printSchema root |-- ID: integer (nullable = true) |-- col2: boolean (nullable = true) |-- col3: boolean (nullable = true) scala> nn.show +---+-----+--

浏览 1提问于2019-05-26得票数 2

回答已采纳

3回答

如何比较SQL语句中两种数据的模式？

scala、apache-spark、apache-spark-sql

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。示例查询1: SELECT DISTINCT target_person FROM INFORMATION_SCHEMA.COLUMNS WHERE COLUMN_NAME IN ('columnA','ColumnB') AND TABLE_SCHEMA='ad_facebook' 示例查询2: SELECT count(*) FROM information_schema.columns WHERE table_n

浏览 6提问于2018-09-04得票数 1

3回答

火花数据中的空值

scala、apache-spark

我正试图将数据格式插入卡桑德拉： result.rdd.saveToCassandra(keyspaceName, tableName) 然而，一些列值是空的，因此我得到了异常： java.lang.NumberFormatException: empty String at sun.misc.FloatingDecimal.readJavaFormatString(FloatingDecimal.java:1842) at sun.misc.FloatingDecimal.parseFloat(FloatingDecimal.java:122) at java.lang.Float.pars

浏览 7提问于2017-05-08得票数 2

回答已采纳

1回答

如何在Scala中将多个数组转换为多列星图

arrays、scala、apache-spark、apache-spark-sql

浏览 4提问于2022-03-05得票数 0

回答已采纳

2回答

Rdd到Dataframe，其中架构以编程方式基于标头

scala、dataframe、apache-spark、apache-spark-sql、rdd

我有下面的RDD，很多都很像： val csv = sc.parallelize(Array( "col1, col2, col3", "1, cat, dog", "2, bird, bee")) 我想将RDD转换为dataframe，其中模式是基于RDD的第一行以动态/编程方式创建的。我希望将逻辑应用于多个类似的RDDs，并且不能使用case类以编程方式指定模式，也不能从一开始就使用spark-csv将数据作为dataframe加载。我已经创建了一个扁平化的dataframe，但是我想知道在创建dataframe时如何拆分相应

浏览 1提问于2019-11-19得票数 0

1回答

为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉？

scala、apache-spark

下面的代码将导致NullPointerException。我不确定，这个异常是发生在某些行上，还是总是因为dataframe很大而无法指向行。 def removeUnwantedLetters(str: String): String = { str.split("\\W+").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ") } val myudf = spark.udf.register("le

浏览 0提问于2018-11-30得票数 0

回答已采纳

1回答

Spark:将JSON加载为DataFrame的正确模式

json、apache-spark、apache-spark-sql、schema

我有一个像这样的JSON { 1234 : "blah1", 9807: "blah2", 467: "blah_k", ...} 已写入gzipped文件。它是一个ID空间到另一个ID空间的映射，其中键是ints，值是strings。我想将它作为DataFrame加载到Spark中。我把它加载为， val df = spark.read.format("json").load("my_id_file.json.gz") 默认情况下，Spark使用一个模式加载它，该模式如下所示 |-- 1234: strin

浏览 0提问于2018-09-12得票数 1

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

scala、apache-spark

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新列？例如： scala> case class Temp(a : Int, b : String

浏览 1提问于2016-11-15得票数 11

回答已采纳

2回答

处理Spark中的所有列/整行

scala、apache-spark、apache-spark-sql

对于包含字符串和数字数据类型混合的dataframe，目标是创建一个新的features列，它是所有这些类型的minhash。虽然这可以通过执行dataframe.toRDD来完成，但是当下一步只是简单地将RDD转换回数据格式时，这样做是很昂贵的。那么，是否有一种方法可以按照以下思路执行udf： val wholeRowUdf = udf( (row: Row) => computeHash(row)) 当然，Row不是spark sql数据类型--所以这不会如所示那样工作。 Update/clarifiction我意识到创建一个运行在withColumn中的完整的UDF是很容易的

浏览 1提问于2018-03-22得票数 4

回答已采纳

1回答

使用scala将一行添加到空的数据文件中

scala、apache-spark、dataframe、apache-spark-sql

我试图使用scala自动地将随机数据加载到一个空数据中。 import org.apache.spark.sql.DataFrame import org.apache.spark.sql.Row import org.apache.spark.rdd.RDD val df = spark.sql("select * from test.test") val emptyDF= spark.createDataFrame(spark.sparkContext.emptyRDD[Row], df.schema) 在这里，我尝试用测试表模式创建一个空的dataframe。在本例中，

浏览 0提问于2018-10-22得票数 2

回答已采纳

1回答

使用Spark访问数据仓库中的列

scala、apache-spark、dataframe、apache-spark-sql、spark-dataframe

我正在开发使用SCALA的SPARK 1.6.1版本，并面临一个不寻常的问题。使用在同一执行过程中创建的现有列创建新列时，获取"org.apache.spark.sql.AnalysisException“。 WORKING:。 val resultDataFrame = dataFrame.withColumn("FirstColumn",lit(2021)).withColumn("SecondColumn",when($"FirstColumn" - 2021 === 0, 1).otherwise(10)) result

浏览 0提问于2016-08-12得票数 4

2回答

Scala :从csv读取具有空值的列的数据

scala、apache-spark、apache-spark-sql

环境- spark-3.0.1-bin-hadoop2.7、eclipse 2.12.3、Scala、SparkSQL、eclipse-jee-oxygen-2-linux-gtk-x86_64 我有一个csv文件，它有3列数据类型:String，Long，Date。我已经将csv文件转换为数据帧，并想要显示它。但是它给出了以下错误 java.lang.ArrayIndexOutOfBoundsException: 2 at org.apache.spark.examples.sql.SparkSQLExample5$.$anonfun$runInferSchemaExample$2(Spar

浏览 1提问于2021-03-25得票数 0

1回答

星火图形多重边缘类型

scala、apache-spark、spark-graphx

我最近开始使用火花。目前，我正在测试一个具有不同顶点和边缘类型的二分图。根据我在图中所做的研究，为了有不同的边和一些具有属性的边，我需要对这些边进行子类化。下面是代码的一个片段： scala> trait VertexProperty defined trait VertexProperty scala> case class paperProperty(val paperid: Long, val papername: String, val doi: String, val keywords: String) extends VertexProperty defined

浏览 0提问于2017-01-16得票数 2

回答已采纳

2回答

为什么火花数据的"withColumn“转换不检查外部列表中的记录？

scala、apache-spark、apache-spark-sql、scala-collections

我使用Spark和Scala来学习。我遇到了一种情况，我需要比较火花数据的一个列中的记录的有效性。这就是我如何创建一个dataframe "dataframe1"： import sparkSession.implicits._ val dataframe1 = Seq("AB","BC","CD","DA","AB","BC").toDF("col1") dataframe1： +----+ |col1| +----+ | AB| | BC| | CD| |

浏览 0提问于2018-10-28得票数 2

回答已采纳

1回答