在spark dataframe中使用forloop添加新列_Spark DataFrame:根据其他列添加新列_Spark Dataframe，使用其他列的函数添加新列 - 腾讯云开发者社区

apache-spark、apache-spark-sql

我有一个spark数据帧，它是创建的，dynamically.There也是一个列的列表，需要从数据帧中选择。我需要遍历所需的列的列表，并检查dataframe中是否存在这些列。如果找到，则需要重命名dataframe列，否则，如果找不到，则创建新列并将其放入“null”值。我已经尝试使用forloop和if条件，如下所示：我的数据帧包含以下列: a.col1、a.col2、a.col3、a.col4、b.col2 val cols_needed = "a.col1,a.col2,a.col3,a.col4,b.col1,b.col2".split(","

浏览 26提问于2019-05-19得票数 0

回答已采纳

1回答

添加新列DataFrame Spark

apache-spark-sql

我尝试通过在dataframe中添加一个新列来使用SparkSQL。我的守则是： val df= sc.read.json("C:/Users/A661758/Desktop/TEST-XSLT.json") df.withColumn("UID", new org.apache.spark.sql.Column("UID")) 错误：'**UID**‘给定的输入列无法解析：我使用Spark2.1.0和Scala2.11.8 谢谢。

浏览 1提问于2017-03-14得票数 1

10回答

如何将新列添加到星火DataFrame (使用PySpark)？

python、apache-spark、dataframe、pyspark、apache-spark-sql

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功： type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours"

浏览 13提问于2015-11-12得票数 179

回答已采纳

1回答

使用scala追加转换后的列以激发数据格式

scala、apache-spark、spark-dataframe、hivecontext

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。我正试着这样做- val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) val hiveDF = sqlContext.sql("select * from table_x") val system_generated_id = hiveDF("unique_key") val application_assigned_event_id = hiveDF("

浏览 1提问于2016-07-03得票数 1

回答已采纳

2回答

哪一种编码方法能在火花中获得最佳性能？

python、pyspark

如果我需要对dataframe(例如，添加列)进行转换，那么获得最佳性能的更好方法是什么？ 1. a=[1,2,3] df=spark.createDataframe(a) df=df.withColumn("b",lit(1)) 2. a=[1,2,3] df=spark.createDataframe(a) df2=df.withColumn("b",lit(1)) 假设我增加了200列。

浏览 0提问于2019-07-16得票数 0

回答已采纳

1回答

火花DataFrame --如何在没有联接的情况下改变一列的排列

apache-spark、pyspark

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。主要是因为我的理解(这可能是非常错误的)，在大型数据集(数百万行)的运行时，联接是不好的。 # for some dataframe spark_df new_df = spark_df.select(colname).sort(colname) new_df.show() # column values sorted nicely spark_df.with

浏览 0提问于2019-06-06得票数 0

1回答

如何从scala/pyspark dataframe中的列表中创建列？错误:不支持该特性：“List()的文本”

scala、apache-spark

enter code here我正在练习在数据仓库中添加一个列表。我可以开发udf并注册，然后在dataframe上应用，但我想尝试一种不同的方法，即提取list from dataframe col和它们map it，然后在新列中提取readd to the original dataframe。 val df = spark.createDataFrame(Seq(("A",1),("B",2),("C",3))).toDF("Str", "Num") +---+---+ |Str|Num| +---+---+

浏览 1提问于2022-09-13得票数 0

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

scala、apache-spark

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新列？例如： scala> case class Temp(a : Int, b : String

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

如何使用StructField数组向df添加列？

scala、apache-spark、apache-spark-sql

我有两个dataframes，我想在第一个数据中添加第二个列中的所有列，而不是第一个列。我得到了一个StructField列数组，我想将这些列添加到dataframe中，并填充为null。这是我想出的最好的： private def addColumns(df: DataFrame, columnsToAdd: Array[StructField]): DataFrame = { val spark = df.sparkSession val schema = new StructType(df.schema.toArray ++ columnsToAdd) spar

浏览 2提问于2022-08-12得票数 0

回答已采纳

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

apache-spark、pyspark、apache-spark-sql、shuffle、databricks

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。 # read the csv file in a spark dataframe df = (spark.read .option("inferSchema", "true") .option("header", "true") .csv(file_path)) 我想对每一列中的数据进行混洗，即分别为‘'In

浏览 16提问于2020-05-11得票数 0

2回答

对dataframe的200万次查询

apache-spark、apache-spark-sql

我需要对大小为100亿行的三列表t (s，p，o)运行200万次查询。每一列的数据类型为字符串。只有两种类型的查询： select s p o from t where s = param select s p o from t where o = param 如果我将表存储在Postgresql数据库中，则使用Java ThreadPoolExecutor需要6个小时。你认为Spark能更快地处理查询吗？最好的策略是什么？以下是我的想法：将表加载到一个dataframe中，并启动对dataframe的查询。将表加载到parquet数据库中，并对该数据库启动查询

浏览 4提问于2020-07-13得票数 1

2回答

PySpark用新列表向dataframe添加新列

python、apache-spark、pyspark、spark-dataframe

基于前面的问题：，。假设我有以下数据： df = spark.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3")) 我想要添加新的x4列，但是我在Python中有值，而不是添加到新列中，例如x4_ls = [35.0, 32.0]。是否有最佳方法将新列添加到Spark？(，注意，，我使用Spark2.1) 输出应该类似于： ## +---+---+-----+----+ ## | x1| x2| x3|

浏览 0提问于2017-02-15得票数 0

回答已采纳

1回答

如何在DataFrame Spark1.6中加载特定的Hive分区？

apache-spark、hive、apache-spark-sql

按照官方的，我们不能向DataFrame添加特定的单元分区直至Spark1.5，以下内容用于工作，而dataframe将有实体列和数据，如下所示： DataFrame df = hiveContext.read().format("orc").load("path/to/table/entity=xyz") 然而，这将不适用于星火1.6。如果给出如下所示的基路径，它不包含我希望在DataFrame中包含的实体列，如下所示- DataFrame df = hiveContext.read().format("orc").load("pa

浏览 3提问于2016-01-07得票数 7

回答已采纳

2回答

以更高效的方式遍历PySpark DataFrame并创建新列

python、apache-spark、pyspark

我正在将一些用熊猫编写的代码转换为PySpark。该代码有许多for循环，用于根据用户指定的输入创建可变数量的列。我使用的是Spark 1.6.x，其中包含以下示例代码： from pyspark.sql import SQLContext from pyspark.sql import functions as F import pandas as pd import numpy as np # create a Pandas DataFrame, then convert to Spark DataFrame test = sqlContext.createDataFrame(pd.D

浏览 1提问于2016-10-15得票数 9

回答已采纳

1回答

Spark :在spark API中有没有等同于Spark SQL的横向视图？

apache-spark、lateral-join、sparkapi

标题说明了一切：在SPARK API中有没有等同于Spark SQL命令的东西，这样我就可以从包含多列数据结构的LATERAL VIEW中生成一列，然后将该结构中的列作为单独的列横向分布到父dataFrame中？等同于df.select(expr("LATERAL VIEW udf(col1,col2...coln)"))的东西

浏览 16提问于2021-02-25得票数 0

回答已采纳

1回答

向DeepLearning4J模型输入Spark

scala、apache-spark、deeplearning4j、nd4j

我的spark dataframe (df)中有数据，它有24个特性，第25列是我的目标变量。我想在这个dl4j上拟合我的dataset模型，它以org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Dataset或org.nd4j.linalg.dataset.api.iterator.DataSetIterator的形式输入。如何将我的dataframe转换成所需的类型？我还尝试使用管道方法直接将火花数据输入到模型中。但是dl4j火花-ml的sbt依赖不起作用。我的build.sbt文件是： scalaVersion

浏览 0提问于2017-06-13得票数 1

回答已采纳

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

apache-spark、pyspark、apache-spark-sql

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点数时，它是完全正常的，但是当我将"X”转换为字符串时，它会抛出隐式笛卡尔乘积的错误我在spark 2.4.5中收到了这个错误。为什么会发生这种

浏览 31提问于2020-12-20得票数 0

1回答

在Spark上生成确定性ID列

apache-spark、apache-spark-sql、spark-dataframe、row-number

我使用Spark窗口函数row_number()为具有嵌套结构的复杂DataFrame生成ID。然后，我提取DataFrame的一部分以创建多个表作为输出，其中包括这个键。但是，Spark只会在操作被触发时物化该表，所以当提取的表保存到HDFS中时，它最终会生成ID。另一方面，在处理大型DataFrames和转换时，Spark可能会打乱数据，从而更改row_number()可能生成的值。因为我从单个DataFrame生成多个表，所以我需要ID列在所有表中保持一致，这意味着在提取表之前需要生成一次ID列，而不是为每个输出动态生成ID列。这个问题的原始逻辑来自，它更详细地解释了根本问题。但

浏览 1提问于2017-11-21得票数 1

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

scala、apache-spark、apache-spark-sql

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)： res248: org.apache.spark.rdd.RDD[(String, Array[String])] = MapPartitionsRDD[1004] at map at <console>:246 org.apache.spark.sql.DataFrame = [id: string, list: array<string>] 我想扩展这个RDD/DF，增加一个包含列表数组大小的列。因此，输出应该是这样的(示例)： org.apache.spa

浏览 27提问于2017-07-07得票数 0

回答已采纳

1回答

比较左文件夹中的列值

scala、apache-spark、apache-spark-sql

我正在尝试将DataFrame中的列汇总到一个新列中，该列将被添加到dataframe本身。这是DataFrame val input = sc.parallelize(Seq( ("r1", 1, 1), ("r2", 6, 4), ("r3", 4, 1), ("r4", 1, 2) )).toDF("ID", "a", "b") 我只想在"a“和"b”中添加一列“one”，其中包含1的计数。这是我想出来的Scala代码，不幸的是，它对任何一行

浏览 10提问于2018-01-10得票数 1

回答已采纳

1回答

如何使用python将列添加到增量表

apache-spark、databricks、delta-lake

我有三角桌 # Load the data from its source. df = spark.read.load("/databricks-datasets/learning-spark-v2/people/people-10m.delta") # Write the data to a table. table_name = "people_10m" df.write.saveAsTable(table_name) 现在，我要添加一个模式更改，可能是单个列，可能是几个列，可能是嵌套数组。我无法预测代码执行过程中会出现什么情况。我使用python的se

浏览 9提问于2022-10-20得票数 0

回答已采纳

3回答

查看Spark Dataframe列的内容

python、apache-spark、dataframe、pyspark

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_code']，它会变成一个pyspark.sql.dataframe.Column类型，但是我找不到一种方法来查看df['zip_code']中的值。

浏览 1提问于2015-06-30得票数 43

回答已采纳

2回答

DataFrame错误：“重载方法值select with alternatives”

scala、apache-spark、dataframe

我尝试通过从数据帧中选择小时+分钟/60和其他列来创建新的数据帧，如下所示： val logon11 = logon1.select("User","PC","Year","Month","Day","Hour","Minute",$"Hour"+$"Minute"/60) 我得到的错误如下： <console>:38: error: overloaded method value select with alternatives: (

浏览 0提问于2017-02-12得票数 2

回答已采纳

4回答

如何访问数组列中的值？

scala、apache-spark、apache-spark-sql

我有一个只有一列的Dataframe该列的每一行都有一个字符串值数组： Spark2.2 Dataframe中的值 ["123", "abc", "2017", "ABC"] ["456", "def", "2001", "ABC"] ["789", "ghi", "2017", "DEF"] org.apache.spark.sql.DataFrame = [col: array] root |--

浏览 8提问于2017-12-01得票数 28

回答已采纳

1回答

如何读取头中具有不同分隔符的数据帧中的csv文件，如“”，其余行以"|“分隔

scala、dataframe、apache-spark、apache-spark-sql

是否用逗号分隔csv文件头，用另一个分隔符"|“.How分隔其余行，以处理这种不同的分隔符情况？请给我建议。 import org.apache.spark.sql.{DataFrame, SparkSession} var df1: DataFrame = null df1=spark.read.option("header", "true").option("delimiter", ",").option("inferSchema", "false") .optio

浏览 12提问于2020-08-25得票数 0

2回答

星星之火-从蜂巢查询时不可见的avro数据

apache-spark、hive、databricks

我正在使用spark创建dataframe，如 dataframe.write.format("com.databricks.spark.avro").save(outputPath) 在我的例子中，输出路径将类似于hdfs路径+ table_name + partition 表table_name已经在使用AvroSerDe创建的单元格中创建，其中的位置设置为outputPath。但是，当我从蜂巢中为table_name做select *时，创建的数据就不可见了。会有什么问题

浏览 6提问于2017-03-29得票数 0

回答已采纳

1回答

Scala/Apache火花转换DataFrame列值和类型，否则为多次

sql、scala、apache-spark、cassandra

我有一个主SQL表，我正在读取这个表，并修改它以写入CassandraDB。目前，我有一个工作实现，将性别从0、1、2、3(整数)转换为“男性”、“女性”、“跨”等(字符串)。尽管下面的方法确实有效，但将带有这些映射的独立数组添加到DataFrame中、将其连接到主表/DataFrame、然后删除、重命名等等，似乎效率很低。我见过： .withColumn("gender", when(col("gender) === 1, "male").otherwise("female") 这将允许我继续在主表上进行方法链接，但无法让它使用两个

浏览 1提问于2017-09-11得票数 2

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

scala、apache-spark、dataframe、apache-spark-sql、user-defined-functions

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

错误:重载的可选方法值选择：

scala、function、select、overloading

我正在dataframe1中读取CSV文件，然后在dataframe2中筛选一些列，在从dataframe1中选择dataframe2列时，我想将我的函数应用到列值上。喜欢 import utilities._ val Logs = sqlContext.read .format("csv") .option("header", "true") .load("dbfs:/mnt/records/Logs/2016.07.17/2016.07.17.{*}.csv") val Log = Logs.select( &

浏览 0提问于2018-11-04得票数 0

回答已采纳

17回答

在Apache Spark DataFrame中连接列

sql、apache-spark、dataframe、apache-spark-sql

如何在Apache Spark DataFrame中连接两列？Spark SQL中有没有我们可以使用的函数？

浏览 7提问于2015-07-16得票数 159

1回答

使用现有列使用Scala添加新列

scala、apache-spark

嗨，我想在DataFrame的每一行中添加使用现有列的新列，我在Scala中尝试这样做.df是包含可变列数的dataframe，只能在运行时决定。 // Added new column "docid" val df_new = appContext.sparkSession.sqlContext.createDataFrame(df.rdd, df.schema.add("docid", DataTypes.StringType)) df_new.map(x => { import appContext.sparkSession.im

浏览 2提问于2017-10-09得票数 1

1回答

Spark - MongoDb - java中的慢dataframe.limit(2)与pyspark版本相比

mongodb、performance、apache-spark、pyspark

具有以下python脚本： from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName('Test') \ .config("spark.driver.extraJavaOptions", "-Xss1G") \ .master('local[*]') \ .getOrCreate() dataframe = spark.read.format("com.mongodb.spark

浏览 1提问于2018-06-21得票数 1

2回答

尝试应用lambda创建新列时，"'DataFrame‘对象没有属性' apply '“

python、pyspark、apache-spark-sql、pyspark-sql

我的目标是在Pandas DataFrame中添加一个新列，但我遇到了一个奇怪的错误。新列应该是现有列的转换，可以在字典/hashmap中进行查找。 # Loading data df = sqlContext.read.format(...).load(train_df_path) # Instanciating the map some_map = { 'a': 0, 'b': 1, 'c': 1, } # Creating a new column using the map df['new_colu

浏览 7提问于2018-06-05得票数 3

回答已采纳

1回答

DataFrames上的Apache Spark Python余弦相似度

python、apache-spark、pyspark、apache-spark-sql、cosine-similarity

对于推荐系统，我需要计算整个Spark DataFrame的所有列之间的余弦相似度。在Pandas中，我经常这样做： import sklearn.metrics as metrics import pandas as pd df= pd.DataFrame(...some dataframe over here :D ...) metrics.pairwise.cosine_similarity(df.T,df.T) 这会生成列之间的相似性矩阵(因为我使用了转置) 有没有办法在Spark (Python)中做同样的事情？ (我需要将它应用于由数千万行和数千列组成的矩阵，所以这就是为什么我

浏览 3提问于2017-05-12得票数 13

3回答

如何用新列覆盖Spark dataframe中的整个现有列？

apache-spark、dataframe、pyspark、apache-spark-sql、apache-spark-mllib

我想用一个新的列覆盖一个spark列，它是一个二进制标志。我尝试直接覆盖列id2，但为什么它不能像Pandas中的原地操作那样工作？如何在不使用without column ()创建新列和使用drop()删除旧列的情况下做到这一点？我知道spark dataframe是不可变的，是因为这个原因，还是有一种不同的方法可以在不使用withcolumn() & drop()的情况下进行覆盖？ df2 = spark.createDataFrame( [(1, 1, float('nan')), (1, 2, float(5)), (1, 3, f

浏览 0提问于2017-06-19得票数 15

2回答

PySpark将IntegerTypes转换为ByteType进行优化

python、apache-spark、pyspark、spark-dataframe

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我写了一个函数来做这件事，并返回一个新的dataframe，其中的值被转换为字节，但是当在UI中查看dataframe的内存时，我发现它只是保存为原始dataframe的转换，而不是新的dataframe本身，因此占用了相同的内存量。我是Spark的新手，可能不完全理解ByteType的内部原理，那么我应该如何开始将这些列设置为Spark的？

浏览 3提问于2018-02-01得票数 5

1回答

如何使用Python Dataframe API在Apache Spark中找到中位数？

python、apache-spark、pyspark、median

Pyspark API提供了除median之外的许多聚合函数。Spark 2附带了approxQuantile，它给出了近似的分位数，但精确的中位数计算起来非常昂贵。对于Spark Dataframe中的一列值，是否有更多的Pyspark方法来计算中值？

浏览 3提问于2016-08-03得票数 3

回答已采纳

1回答

带星点的Geo散列NEO4j图

apache-spark、neo4j

我使用的是Neo4j/Cypher，我的数据是关于200 so的，所以我想到了可伸缩的解决方案“火花”。有两种解决方案可用于使用spark生成neo4j图： 1) Apache火花密码() 2) Neo4j-火花连接器我用了第一个，帽子。预处理后的CSV得到了两个“Geo散列”信息:一个用于拾取，另一个用于每一行的停放。我想要的是建立一个地理哈希节点的连通图。 CAPS只允许通过映射节点来生成图形:如果要将id为0的节点连接到具有id 1的节点，则需要与启动id 0和end id 1建立关系。一个非常简单的布局是： Nodes: (just id, no properties) i

浏览 0提问于2018-08-22得票数 1

回答已采纳

1回答

将嵌套的JSON列转换为Pyspark列

arrays、json、dataframe、pyspark

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据： adf = spark.read.parquet('s3://path') 我的pyspark dataframe中的一个嵌套列如下所示： event_params:array element:struct key:string value:struct dou

浏览 8提问于2022-06-07得票数 0

1回答

如何在不影响其他列的情况下使用spark验证Dataframe中的特定列？

pandas、dataframe、apache-spark、pyspark、apache-spark-sql

set.createOrReplaceTempView("input1"); String look = "select case when length(date)>0 then 'Y' else 'N' end as date from input1"; Dataset<Row> Dataset_op = spark.sql(look); Dataset_op.show(); 在上面的代码中，dataframe 'set‘有10列，我已经对其中的一列(即

浏览 3提问于2022-04-05得票数 1

回答已采纳

2回答

获取到元数据表的数据模式加载

scala、apache-spark

用例是读取一个文件并在it.After上创建一个数据文件，获取该文件的模式并将其存储到DB表中。例如，我只是创建一个case类并获取printschema，但是我无法从其中创建一个dataframe。下面是一个示例代码 case class Employee(Name:String, Age:Int, Designation:String, Salary:Int, ZipCode:Int) val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.m

浏览 0提问于2019-06-27得票数 1

回答已采纳

1回答

运行火花-使用Gradle从Intellij中移出红移

apache-spark、apache-spark-sql

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

3回答

如果火花中的数据不可变，为什么我们能够使用withColumn()之类的操作来修改它呢？

apache-spark、pyspark

这可能是源于我无知的一个愚蠢的问题。我已经在PySpark上工作了几个星期了，一开始我没有多少编程经验。我的理解是，在Spark中，RDDs、Dataframes和数据集都是不可变的--我同样理解，这意味着您不能更改数据。如果是这样，为什么我们能够使用withColumn()编辑Dataframe的现有列？

浏览 0提问于2018-11-19得票数 14

回答已采纳

1回答

如果在spark sql中的操作中从未使用过一列，那么它会加载到内存中吗？

apache-spark、apache-spark-sql

当我在Spark DataFrame中有许多列，但只使用了其中的一些列时，Spark是否足够聪明，永远不会将未使用的列加载到内存中？

浏览 0提问于2018-09-18得票数 2

1回答

将两列组合在一起，转换两个时间戳并从df中选择不会导致错误，但将一列对时间戳进行转换并选择会导致错误。

scala、apache-spark、apache-spark-sql

描述当我尝试选择一个被强制转换为unix_timestamp的列，然后从一个dataframe中选择时间戳时，就会出现闪烁分析异常错误。见下面的链接. 但是，当我组合两列，然后将组合体转换为unix_timestamp，然后是时间戳类型，然后从df中选择时，就没有错误了。不同案件错误：无差错 import org.apache.spark.sql.functions._ import org.apache.spark.sql._ import org.apache.spark.sql.types._ val spark: SparkSession = SparkSession.buil

浏览 0提问于2019-07-21得票数 0

5回答

在选择“struct_name.*”时，为所有列设置前缀

python、apache-spark、pyspark、struct、apache-spark-sql

浏览 2提问于2020-01-29得票数 4

回答已采纳

2回答

将海量JSON文件读入Spark Dataframe

json、scala、apache-spark、dataframe

我有一个很大的嵌套NDJ (新行分隔的JSON)文件，我需要将其读取到单个spark dataframe中并保存到parquet中。在尝试呈现模式时，我使用以下函数： def flattenSchema(schema: StructType, prefix: String = null) : Array[Column] = { schema.fields.flatMap(f => { val colName = if (prefix == null) f.name else (prefix + "." + f.name)

浏览 2提问于2016-12-10得票数 5

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

scala、apache-spark、dataframe、apache-spark-sql

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。 val json : String = """{ "x": true, "y": "not true" }""

浏览 4提问于2016-10-10得票数 7

回答已采纳

5回答

DataFrame对象没有属性“col”

apache-spark

在“火花:最终指南”中，它说：如果需要引用特定DataFrame的列，则可以在特定的DataFrame上使用col方法。例如(在Python/Pyspark中)： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object has no attribute 'col'。如果我尝试column，我会得到一个类似的错误。这本书是错的，还是我该怎么做呢？我上的是星火2.3.1。dataframe是用以下内容创建的： df = spark.read.f

浏览 2提问于2018-08-12得票数 9

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳