迭代C#中的spark dataframe列

在迭代C#中的Spark DataFrame列时，可以使用Spark.NET库来实现。Spark.NET是一个开源的.NET库，它提供了与Apache Spark的集成，使开发人员能够使用C#语言进行大数据处理和分析。

要迭代Spark DataFrame列，可以按照以下步骤进行操作：

导入必要的命名空间：

using Microsoft.Spark.Sql;

创建SparkSession对象：

SparkSession spark = SparkSession.Builder().GetOrCreate();

加载DataFrame数据：

DataFrame dataFrame = spark.Read().Format("csv").Option("header", "true").Load("data.csv");

迭代DataFrame列：

foreach (string columnName in dataFrame.Columns())
{
    // 在这里进行列的迭代操作
    // 可以使用columnName访问当前列的名称
    // 例如，可以使用dataFrame[columnName]来获取列的值
}

在迭代DataFrame列时，可以根据具体需求进行各种操作，例如数据转换、过滤、聚合等。可以使用Spark.NET提供的各种函数和操作符来处理DataFrame中的数据。

关于Spark.NET的更多信息和使用方法，可以参考腾讯云的相关产品和文档：

腾讯云产品：腾讯云Spark
产品介绍链接地址：https://cloud.tencent.com/product/spark

请注意，以上答案仅涉及迭代C#中的Spark DataFrame列的基本概念和操作，具体的实现方式和细节可能因实际情况而异。

根据CSV记录过滤Spark数据帧中的部分数据

、、、

我有一个包含一些单词的CSV文件。总共没有。csv文件中的字数不会超过50k条记录。我有一个从具有keywords列的JSON文件创建的Spark Dataframe。我需要做的是从dataframe中过滤出其keywords列值与CSV文件中的值匹配的记录。这里，匹配表示csv文件中的单词是否出现在dataframe列中。举个例子，假设csv文件中有一个单词"baby toys"，spark dataframe看起来像这样 ***Keywords*** new baby toys baby toys for all costly baby toys price baby

浏览 2提问于2019-05-31得票数 0

1回答

在.NET火花中遍历数据帧

、

我在Spark中有一个dataframe (通过读取csv创建)，如何在C#中遍历这个数据文件中的行。dataframe中有10行3列，在逐行导航时，我希望获得每个列的值。以下是我正在尝试的： foreach (var obj in df) { Console.WriteLine("test"); } foreach语句不能对“DataFrame”类型的变量进行操作，因为“DataFrame”不包含“GetEnumerator”的公共实例定义

浏览 4提问于2022-11-09得票数 0

回答已采纳

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

在星火数据中遍历列并计算最小最大值。

、、、、

我想在我的星火程序中遍历dataframe列，并计算min和max值。我对Spark和scala很陌生，一旦我在dataframe中获取它，我就无法遍历这些列。我尝试过运行以下代码，但它需要将列号传递给它，问题是如何从dataframe中获取它并动态传递它，并将结果存储在一个集合中。 val parquetRDD = spark.read.parquet("filename.parquet") parquetRDD.collect.foreach ({ i => parquetRDD_subset.agg(max(parquetRDD(parquetRDD.colum

浏览 3提问于2017-07-18得票数 0

回答已采纳

2回答

Spark DataFrame在所有列上都是唯一的

、

我想用Spark SQL和DataFrame复制Pandas would函数。我有以下几点： %spark import org.apache.spark.sql.functions.countDistinct import org.apache.spark.sql.functions._ val df = spark.read .format("csv") .option("delimiter", ";") .option("header", "true")

浏览 26提问于2021-11-05得票数 1

回答已采纳

2回答

将cache()和count()应用于数据库中的Spark是非常慢的。

、、、

我在Databricks集群中有一个包含500万行的星星之火数据。我想要的是缓存这个火花数据，然后应用.count()，以便下一个操作运行得非常快。我过去做过两万行，而且它能工作。然而，在我尝试这样做的过程中，我遇到了以下悖论： Dataframe创建步骤1:从Azure数据湖存储帐户读取800万行 read_avro_data=spark.read.format("avro").load(list_of_paths) #list_of_paths[0]='abfss://storage_container_name@storage_account_name.dfs.

浏览 0提问于2020-06-01得票数 3

回答已采纳

2回答

遍历数据表的行。

、、、

因为我对Scala有点陌生，所以我发现很难遍历Dataframe。我的dataframe包含两个列，一个是path，另一个是ingestiontime。例子- 现在，我想迭代这个数据，并使用Path和ingestiontime列中的数据来准备一个Hive查询并运行它，这样运行的查询看起来就像- ALTER TABLE <hiveTableName> ADD PARTITON (ingestiontime=<Ingestiontime_From_the_DataFrame_ingestiontime_column>) LOCATION (<Path_Fro

浏览 2提问于2020-07-22得票数 0

回答已采纳

1回答

如何从列中获取MapType

、、、

浏览 1提问于2018-01-31得票数 2

回答已采纳

1回答

星火流到达dataframe列并添加查找Redis的新列

、、、

在我的上一个问题()中，由于，我成功地用地图到达了redis 我试图使用map分区，但我无法解决一个问题，即在迭代时如何能够到达以下代码部分中的每一行列。因为我想在保持在Redis中的查找字段的基础上充实我的每一行。我发现了类似这样的内容，但是我如何能够访问dataframe列并添加查找Redis的新列。我非常感谢你的帮助，谢谢。 import org.apache.spark.sql.types._ def transformRow(row: Row): Row = { Row.fromSeq(row.toSeq ++ Array[Any]("val1",

浏览 1提问于2020-12-10得票数 0

回答已采纳

3回答

查看Spark Dataframe列的内容

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_code']，它会变成一个pyspark.sql.dataframe.Column类型，但是我找不到一种方法来查看df['zip_code']中的值。

浏览 1提问于2015-06-30得票数 43

回答已采纳

1回答

将spark数据帧写入固定宽度文件java spark

、、

我已经使用java spark dataframe将CSV读取到dataframe中，现在我必须对每个列应用一些宽度，并将数据写入固定宽度的文件中。因为example..column 1有2位宽，列2有7个bit...like，而我有85列。谁能解释一下如何使用java spark将dataframe中的数据写入到固定宽度的文件中？我只需要java spark中的解决方案

浏览 0提问于2020-11-19得票数 0

1回答

每次在python中迭代函数时，分别获取该函数的日志

、、、

我有一个类似下面的pyspark脚本。在这个脚本中，我遍历表名的input文件并执行代码。现在，我想在每次迭代函数mysql_spark时分别收集日志。例如： input file table1 table2 table3 现在，当我执行pyspark脚本时，我将所有三个表的日志保存在一个文件中。 What I want is 3 separate log files 1 for each table Pyspark脚本： #!/usr/bin/env python import sys from pyspark import SparkContext, SparkConf from py

浏览 1提问于2017-07-29得票数 0

回答已采纳

3回答

spark - Converting dataframe to list提高性能

、、、、

我需要将Spark dataframe的一列转换为列表，以便稍后用于matplotlib df.toPandas()[col_name].values.tolist() 看起来有很高的性能开销，这个操作大约需要18秒，有没有其他方法可以做到这一点或提高性能？

浏览 2提问于2016-02-12得票数 3

回答已采纳

1回答

以编程方式将所有特定的数据类型列转换为Scala星火中的其他数据类型

、、

我正在以编程的方式尝试转换列的数据类型，并遇到一些编码问题。为此，我修改了使用的代码。数据>>任何被读取为字符串的数字。代码>> import org.apache.spark.sql raw_data.schema.fields .collect({case x if x.dataType.typeName == "string" => x.name}) .foldLeft(raw_data)({case(dframe,field) => dframe(field).cast(sql.types.IntegerType

浏览 0提问于2018-11-27得票数 1

回答已采纳

1回答

错误:重载的可选方法值选择：

、、、

我正在dataframe1中读取CSV文件，然后在dataframe2中筛选一些列，在从dataframe1中选择dataframe2列时，我想将我的函数应用到列值上。喜欢 import utilities._ val Logs = sqlContext.read .format("csv") .option("header", "true") .load("dbfs:/mnt/records/Logs/2016.07.17/2016.07.17.{*}.csv") val Log = Logs.select( &

浏览 0提问于2018-11-04得票数 0

回答已采纳

1回答

如何在.Net Spark中将数组列作为参数传递到VectorUdf中？

、、、、

我正在尝试在C# Spark中实现向量自定义函数。我已经通过Spark .Net创建了.Net Spark环境。在我的IntegerType专栏中，Vector Udf (Apache箭头和Microsoft.Data.Analysis都是)很好用。现在，尝试将Integer数组类型的列发送到Vector Udf，但找不到实现此目的的方法。用法 using System; using System.Linq; using Microsoft.Data.Analysis; using Microsoft.Spark.Sql; using func = Microsoft.Spark.Sql

浏览 17提问于2021-03-25得票数 6

1回答

在创建字符串模式类型dataframe时出现异常错误

、

我正在创建一个简单的数据框架。 df=spark.createDataFrame(data=[('11s1 ab')],schema=['str']) 我得到了错误： TypeError:无法推断类型的架构：<class 'str'> 但是，如果我将语句更改为： df=spark.createDataFrame(data=[('11s1 ab',)],schema=['str']) 我的dataframe已经成功创建。我想了解为什么这个逗号在spark.createdataFrame中的数据定义元组中

浏览 1提问于2022-11-30得票数 0

回答已采纳

1回答

缓存查询性能火花

、

如果我试图缓存一个巨大的DataFrame (例如:100 to表)，当我对缓存的DataFrame执行查询时，它会执行完整的表扫描吗？星星之火将如何索引数据。星火文件说： Spark可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中的列格式来缓存表。然后，Spark将只扫描所需的列，并将自动调整压缩，以尽量减少内存使用和GC压力。您可以调用spark.catalog.uncacheTable("tableName")从内存中删除表。我没有完全理解上面的语句，如果有人

浏览 8提问于2017-08-14得票数 2

1回答

Spark - MongoDb - java中的慢dataframe.limit(2)与pyspark版本相比

、、、

具有以下python脚本： from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName('Test') \ .config("spark.driver.extraJavaOptions", "-Xss1G") \ .master('local[*]') \ .getOrCreate() dataframe = spark.read.format("com.mongodb.spark

浏览 1提问于2018-06-21得票数 1

1回答

Spark Sql执行是否使用线程本地jobgroup？

从我的发现来看，在不同的作业组中运行多个sparksql并不会将它们放入指定的组中。https://issues.apache.org/jira/browse/SPARK-29340 创建新的threadlocal jobgroup适用于spark dataframe作业，但不适用于sparksql。有没有办法将所有的线程本地spark sql执行放在一个单独的作业组中？ val sparkThreadLocal: SparkSession = DataCurator.spark.newSession() sparkThreadLocal.sparkContext.setJobGroup(

浏览 38提问于2019-10-03得票数 0

1回答

火花DataFrame --如何在没有联接的情况下改变一列的排列

、

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。主要是因为我的理解(这可能是非常错误的)，在大型数据集(数百万行)的运行时，联接是不好的。 # for some dataframe spark_df new_df = spark_df.select(colname).sort(colname) new_df.show() # column values sorted nicely spark_df.with

浏览 0提问于2019-06-06得票数 0

1回答

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

、、、

我正在使用下面的语句在spark中读取csv。 df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True) 当我检入spark dataframe时，一些整型和双精度列被存储为dataframe中的字符串列。但是，并不是所有的列都是这样。我已经检查了特定列的值，所有的值都是双精度类型，但spark仍然推断为StringType。因为我加载的CSV文件大约有1000列，所以也显式地指定模式是不可行的。如有任何建议或帮助，我们将不胜感激。致以敬意， Neeraj

浏览 5提问于2017-08-31得票数 2

1回答

创建空DF并添加列不起作用

、、

我正在尝试创建一个空的dataframe并追加新的列。我试着通过两个选项来做到这一点。选项A工作正常，但选项B不工作。请帮帮我！选项A： ` var initialDF1 = Seq(("test")).toDF("M") initialDF1 = initialDF1.withColumn(("P"), lit(s"P")) initialDF1.show +----+---+ | M| P| +----+---+ |test| P| +----+---+ ` 选项B：(不起作用) ` import org.apa

浏览 34提问于2019-04-17得票数 0

1回答

DataFrames上的Apache Spark Python余弦相似度

、、、、

对于推荐系统，我需要计算整个Spark DataFrame的所有列之间的余弦相似度。在Pandas中，我经常这样做： import sklearn.metrics as metrics import pandas as pd df= pd.DataFrame(...some dataframe over here :D ...) metrics.pairwise.cosine_similarity(df.T,df.T) 这会生成列之间的相似性矩阵(因为我使用了转置) 有没有办法在Spark (Python)中做同样的事情？ (我需要将它应用于由数千万行和数千列组成的矩阵，所以这就是为什么我

浏览 3提问于2017-05-12得票数 13

3回答

用星火DataFrame中列的平均值替换列的空值

、、

Spark中是否有函数可以通过忽略null/NaN来计算DataFrame中列的平均值？就像在R中一样，我们可以传递一个选项，比如na.rm=TRUE。当我在带有NaN的列上应用avg()时，我只得到NaN。

浏览 1提问于2017-09-17得票数 2

回答已采纳

1回答

将循环的输出写入数据帧

、、、

我编写了这个scala代码，以便为星火DataFrame中的每一行做一些事情。基本上，这就是我所做的步骤 1. I convert the DataFrame into an array 2. Iterate through the array and perform calculations and get the output in an array 3. convert the output of the array to a dataframe and then make a Hive table. 这是在第二步，我有问题，当我运行一百万记录。我还能提高表演水平吗。FYI只将数据转

浏览 1提问于2017-11-02得票数 1

回答已采纳

1回答

在本地使用spark/scala查询数据时，如何更改列中值的输出？

、、、、

我使用spark/scala本地将json文件转换为dataframe。我当前的dataframe有一个列‘男性’和‘女性’值，如下所示。我想将dataframe中的‘男性’更改为'M'，以及使用Spark-sql<code>E 215</code>将‘where’更改为'F'的位置。到目前为止，我已经： val results = spark.sql("SELECT name, case WHEN gender = 'Male' then 'M' WHEN gender = 'Fema

浏览 5提问于2021-07-19得票数 1

2回答

Spark-scala聚合列表中的多个列

、、

我有一个数据帧，其中有几个数值列是不固定的(它们在每次执行过程中都会发生变化)。假设我有一个带有数字列名称的Seq对象。我想对这些列中的每一列应用一个聚合函数。我尝试过以下几种方法： println(numeric_cols) // -> Seq[String] = List(avgTkts_P1, avgTkts_P2, avgTkts_P3, avgTkts_P4) var sum_ops = for (c <- numeric_cols) yield org.apache.spark.sql.functions.sum(c).as(c) var result = df.g

浏览 2提问于2018-09-04得票数 0

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如： [1] [1,2] [1,2,3] [2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：删除元素1，结果如下： [] [2] [2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

DataFrame到RDD[(字符串，字符串)]的转换

、、、、

我想把数据库中的org.apache.spark.sql.DataFrame 转换成 org.apache.spark.rdd.RDD[(String, String)] ，有人能帮上忙吗？背景(更好的解决方案也是受欢迎的)：我有一个Kafka流，它(经过一些步骤)变成了一个2列数据框架。我想把它放到Redis缓存中，第一列作为键，第二列作为值。更具体地说，输入的类型是：lastContacts: org.apache.spark.sql.DataFrame = [serialNumber: string, lastModified: bigint]。我试着按以下方式对Redis进行分析：

浏览 0提问于2019-03-25得票数 0

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

如何使用StructField数组向df添加列？

、、

我有两个dataframes，我想在第一个数据中添加第二个列中的所有列，而不是第一个列。我得到了一个StructField列数组，我想将这些列添加到dataframe中，并填充为null。这是我想出的最好的： private def addColumns(df: DataFrame, columnsToAdd: Array[StructField]): DataFrame = { val spark = df.sparkSession val schema = new StructType(df.schema.toArray ++ columnsToAdd) spar

浏览 2提问于2022-08-12得票数 0

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。 val json : String = """{ "x": true, "y": "not true" }""

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

包含SparseVector的Spark.ml DataFrame

、

我有一个包含许多列的spark.ml DataFrame，每列中的每一行都包含一个SparseVector。我想对每一列应用MultivariateStatisticalSummary.colStats，colStats签名是： def colStats(X: RDD[Vector]): MultivariateStatisticalSummary 看起来很完美..。除了我似乎不能从该DataFrame中select一列并将其转换为RDD[Vector]。这是我的尝试： val df: DataFrame = data.select(shardId) val col = df.as[(org

浏览 0提问于2017-02-16得票数 0

2回答

如何遍历spark dataframe列并逐个访问其中的值？

、

我有spark dataframe 我想要一个接一个地获取列的值，并且需要将它赋给某个变量?在pyspark.Sorry中如何做到这一点呢?我是一个新手，对于stackoverflow.Please来说也是如此，请原谅我缺乏清晰度。

浏览 36提问于2018-11-13得票数 5

1回答

迭代的列并更新指定的值

、、、

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

如何将List[Double]转换为列？

、、、

我有List[Double]，如何把它转换成org.apache.spark.sql.Column。我试图使用.withColumn()将其作为一列插入到现有的DataFrame中。

浏览 2提问于2016-04-03得票数 4

回答已采纳

1回答

按分区从DataFrame收集集合

、、、、

我已经按列对DataFrame进行了分区： val dfDL = spark.read.option("delimiter", ",") .option("header", true) .csv(file.getPath.toUri.getPath) .repartition(col("column_to")) val structure = "schema_from" ::

浏览 13提问于2021-12-13得票数 0

回答已采纳

1回答

将函数生成的列生成为新的dataframe

、、

我有一个带有n个cols的percentage ( df )，我想要生成另一个n cols的df，其中每一列都记录相应的原始df列中的b/w连续行的百分比差。新df中的列标题应该是旧dataframe + "_diff“中相应的列标题。使用下面的代码，我可以为原始df中的每一列生成百分比变化的新列，但无法将它们插入具有适当列标题的新df中： from pyspark.sql import SparkSession from pyspark.sql.window import Window import pyspark.sql.functions as func spark = (Sp

浏览 0提问于2018-05-31得票数 0

回答已采纳

1回答

如果在spark sql中的操作中从未使用过一列，那么它会加载到内存中吗？

、

当我在Spark DataFrame中有许多列，但只使用了其中的一些列时，Spark是否足够聪明，永远不会将未使用的列加载到内存中？

浏览 0提问于2018-09-18得票数 2

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

我正在尝试将一些计算列添加到SparkR数据框中，如下所示： Orders <- withColumn(Orders, "Ready.minus.In.mins", (unix_timestamp(Orders$ReadyTime) - unix_timestamp(Orders$InTime)) / 60) Orders <- withColumn(Orders, "Out.minus.In.mins", (unix_timestamp(Orders$OutTime) - unix_timestamp(Orders$InTime)) / 6

浏览 2提问于2015-12-29得票数 0

10回答

如何将新列添加到星火DataFrame (使用PySpark)？

、、、、

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功： type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours"

浏览 13提问于2015-11-12得票数 179

回答已采纳

1回答

从任意长度csv列创建火花数据

、

我正在尝试从我的dataframe中的单个csv格式化列创建一个新的dataframe。我之前不知道模式，所以我尝试使用没有模式参数的spark.createDataFrame方法(类似于中的方法1)。我正在尝试下面这样的代码，但会引发异常： var csvrdd = df.select(df("Body").cast("string")).rdd.map{x:Row => x.getAs[String](0)}.map(x => x.split(",").toSeq) var dfWithoutSchema = spark.cre

浏览 6提问于2017-05-08得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

如何在Spark Dataframe中将一个时区转换为另一个时区

、、

我正在从PostgreSQL读取Spark Dataframe，并在PostgreSQL中有日期列，如下所示： last_upd_date --------------------- "2021-04-21 22:33:06.308639-05" 但在spark dataframe中，它添加了小时间隔。 eg: 2020-04-22 03:33:06.308639 在这里，它向last_upd_date列添加了5个小时。但我希望输出为2021-04-21 22:33:06.308639 有人能帮我解决这个spark数据帧吗？

浏览 28提问于2021-06-24得票数 2

1回答

在Spark DataFrame中将列居中的简单方法

、、

我想在Spark DataFrame中将一列居中，即用该列的平均值减去该列中的每个元素。目前，我是手动完成的，即首先计算列的平均值，从简化的DataFrame中获得值，然后用平均值减去列。我想知道在Spark中有没有一种简单的方法可以做到这一点？有没有内置的函数可以做到这一点？

浏览 55提问于2019-02-27得票数 0

1回答

Apache数据帧C#中的移动平均值

、

在我的数据库中有一些样本，我已经导入到apache spark Dataframe中。我需要在C#中的当前样本之前添加另一个具有n个样本的移动平均值的列。这是我的数据框架： DataFrame frame = jdbcDf .Where("SubjectKey = 104") .Select("Timestamp", "Current").Sort("Timestamp"); 我找到了下面的代码： val movAvg = sampleData.withColumn("

浏览 14提问于2021-02-08得票数 0

1回答

创建空的dataframe Java Spark

、、

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

交叉连接的结果是“设备上没有空间”

、、

我试图交叉连接两个数据帧，并应用少量的转换，最后尝试将结果写入临时S3位置。但我总是以低于No space left on device错误结束。看起来是因为打电话给spill()。你能帮我怎样用正确的配置克服这个错误吗？配置详细信息：专题组: AWS电子病历组核心节点:最初为2个，可扩展到15个节点。任务节点:最初为0，按需扩展到15个. 实例类型: r4.2xlarge (8核，61 EBS，128 EBS) Dataframe1 & Dataframes2分区大小:26个分区。 Dataframe1记录计数= 115580 Dataframe2

浏览 14提问于2022-08-02得票数 0

1回答

Scala :不规则行为-- foldleft()与foreach()

、

我只是列出了两种解决方案，我曾试图实现一个用例，将sure应用到某些列中，但我不知道为什么我的两个函数的行为方式都完全不同，即使我试图实现相同的功能。有人能解释一下内部的工作吗?这两种情况到底发生了什么？职能1： def transformColumns(df: DataFrame, transformationType: String, sanitizationList: List[Sanitization]): DataFrame = { try { sanitizationList.foldLeft(df) { (outerAccumulator:

浏览 1提问于2021-10-08得票数 0

回答已采纳