使用Spark将列名附加到列值

文章/答案/技术大牛

发布

1回答

、、、

我在逗号分隔的文件中有数据，我已经将其加载到spark数据框中:数据如下： 1 2 3 7 8 9 A_1 B_2 C_3 --------------[[ A_1 , B_2 , C_3],[A_4 , B_5 , C_6]] 然后在上述数据集上使用pyspark运行FP增长算法。

浏览 8提问于2019-08-12得票数 1

回答已采纳

3回答

如何在SPARKR DataFrame中的列的每个值上应用函数？

、

我下载了SPARK1.4并设置了RStudio来使用SPARKR库。但是，我想知道如何将函数应用于分布式DataFrame的列中的每个值，有人可以帮助我吗？其目的是将"_hello“附加到DF的列名的每个值上 DF <- read.df(sqlContext, "TV_Flattened_2.csv", source = "com.databricks.spark.csv

浏览 0提问于2015-08-12得票数 4

1回答

如何在pyspark中通过删除列中的字符自动批量重命名

、、、

当我键入spark_df.columns时，输出是 ['id', ...

浏览 12提问于2021-09-01得票数 0

回答已采纳

2回答

星星之火中的重复列名读为csv

、

浏览 0提问于2019-06-04得票数 2

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对我如何将$和ColumnNames.JobSeekerID结合在一起来完成这一任务？

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

在不更改列名的情况下创建PySpark数据框

、、、

我使用下面的CTAS命令使用SparkSQL创建表。FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。df = spark.read.format('ORC') \ .option('header',True) \

浏览 12提问于2019-12-23得票数 1

回答已采纳

1回答

将cassandra行RDD转换为元组数组

、、

我尝试从cassandra表中读取数据并将值存储在数组中。我的RDD如下所示如何将这些值存储到没有列名的数组中？

浏览 0提问于2015-11-06得票数 0

1回答

动态构建Spark filter查询

、

我在一个映射中有多个条目(列名，值)。现在我想过滤一个有列名的数据集，这个列名是作为键的映射，这个值定义了数据集的特定列名应该具有的值。例如，数据集具有列(a，b，c)，而map具有条目{(a,1)，(b,2)}使用java在spark中实现这一点的方法是什么？

浏览 1提问于2017-03-27得票数 0

1回答

如何使用Spark从mariadb读取数据

、、、、

我需要使用从MariaDB读取一个表。import org.apache.spark.sql.Row;import static org.apache.spark.sql.functions.col=

浏览 1提问于2018-10-09得票数 1

1回答

N列m行的动态数据帧

、

示例数据帧：import spark.implicits._ (1, "ABC"), (3, "GHIJ")someDF: org.apache.spark.sql.DataFrame-----+ |id |

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

我希望加入多个具有相同名称的列的多个数据集，同时具有不同的数据。这可以重命名dataset列，同时将其转换为dataframe。但是，在使用数据集时，是否可以使用重命名或将前缀设置为列名。Dataset<Row> uct = spark.read().jdbc(jdbcUrl, "uct", connectionProperties); Dataset<Row> si = spark.readACTIVE&#

浏览 0提问于2018-01-19得票数 0

回答已采纳

1回答

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

、、

我使用此代码成功地将数据导出到磁盘上的csv。result_25.toPandas().to_csv('mycsv.csv')rr = spark.read.csv('mycsv.csv',

浏览 3提问于2018-10-01得票数 2

回答已采纳

1回答

spark JDBC列大小

、

spark JDBC列大小：spark.read.jdbc(myDBconnectionSTring、scheam.table、connectionProperties) 来检索列名和类型，但我需要varchar列的大小。在java JDBC数据库元数据中，我可以获得列名、类型和大小。有没有可能使用spark？谢谢

浏览 1提问于2018-04-01得票数 0

1回答

添加一个新列来激发数组列表中的数据

、

我试图添加一个新列来激发数据框架，如下所示：我正在尝试将这个ArrayString作为新列添加到dataframe中，并尝试对新列执行线程“主”org.apache.spark.sql.AnalysisException中的异常:无法解析给定的输入列'a||b||c||d||e‘：预期的输出应该是一个以newcolum作为列名的dat

浏览 3提问于2020-04-21得票数 1

回答已采纳

3回答

火花放电数据栏:蜂箱列

、、

closeprice string 以下Spark代码读取csv文件并尝试将记录插入到Hive表中：lines = sc.textFile('file:///<File Location>') rows在TickerId( Hive表中的第1列)<em

浏览 0提问于2018-04-25得票数 2

回答已采纳

1回答

apache-spark partitionBy:从目录布局中删除列名

、

hour") .save("s3a://path/") /**

浏览 1提问于2020-05-15得票数 1

1回答

如何使用Scala在Spark中创建仅包含列名和数据类型的新空列

、

与在RDBMS中添加新列一样，不需要在列中填充数据，但需要提供列名和数据类型。我想在Spark dataframe中做同样的事情，但不一定在Schema中指定，我希望新的列可以以特别的方式创建 val dfWithNewColumn = df.withColumn("new_col", IntgerType) 重点就是提供类型而不是Spark推理。但是我看不到任何解决方案，除了在Schema中进行更改或者将默认值设置为新列

浏览 28提问于2020-07-02得票数 0

回答已采纳

1回答

AWS胶-不知道如何将NullType保存为红移

、、、

我有一个带有空单元格的文本文件和一个接受空值的表。当我运行胶水作业时，它会失败，例外情况是“不知道如何将NullType保存为REDSHIFT”。getResolvedOptions(sys.argv, ['TempDir','JOB_NAME']) glueContext = GlueContext(sc)job = Job(glueContext) job.init(ar

浏览 4提问于2017-11-28得票数 5

1回答

DataFrame:将列名附加到行数据

、、

我正在寻找一种将列名附加到数据帧行数据的方法。列的数量有时会有所不同。value_bar| +---+-------------------------+ import org.apache.spark.sql._ val concatColNamesWithElems = udf { seq: Seq[Row] =&

浏览 2提问于2017-01-30得票数 0

2回答

火花scala -如何根据列列表计算多列的md5

、

我有一个包含列名的列表。我需要连接这些列，然后创建和md5并附加到数据格式中。我有fname，lname，address的桌子。我得到的数据应该看起来像。fname，lname，address和md5(concat_ws(",",fname, lname))import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.W

浏览 13提问于2022-10-06得票数 0

回答已采纳

点击加载更多