使用python转换sparksql dataframe中的列

文章/答案/技术大牛

发布

1回答

、、、

嗨，我有一个带有一大堆列的spark sql数据帧。其中一列(" date ")是日期字段。我想将以下转换应用于该列中的每一行。这就是如果它是一个熊猫数据帧，我会做什么。我似乎想不出火花的等价物 df["date"] = df["date"].map(lambda x: x.isoformat() + "Z") 该列的值形式为2020-

浏览 27提问于2021-06-16得票数 0

2回答

仅使用spark sql删除表/视图中的列

、、

我在一个表中有30列，即table_old drop_column=now_current_column var table_new=spark.sql(s"""alter table table_olddrop $d

浏览 7提问于2018-11-01得票数 3

1回答

如何控制使用partitionBy时生成的拼花文件的数量

、

我有一个DataFrame，我需要根据特定的分区将它写入S3。代码如下所示： .write .partitionBy("year", "month", "date", "country", "predicate")partitionBy将数据分成相当多的文件夹(~400)，每个文件夹中</em

浏览 5提问于2015-11-20得票数 9

回答已采纳

1回答

星星之火SQL只有DataFrame的一列

、、、

对不起，我在SparkSQL中有这样一个数据：----------------2 | Joey | DOGE4 | Jack | MEGA我想知道如何做两件事：1)创建一个新的布尔列，该列指示数据是否以A开

浏览 0提问于2018-05-08得票数 4

回答已采纳

1回答

我正在尝试使用groupby和aggregate将sparksql查询重写为dataframe转换。下面是原始的sparksql查询。measure_value) AS planned_sales_inputs FROM lookups GROUP BY date, Budget_Type, Full_Subcategory") 下面是我正在尝试进行的Dataframe转换。Budget_Type#279, date#41

浏览 15提问于2018-08-21得票数 0

回答已采纳

1回答

如何在SparkSQL中模拟ZEROIFNULL的功能

、、

Teradata有一个名为ZEROIFNULL的函数，它执行名称建议的操作，如果列的值为NULL，则返回零。在类似的行中，还有一个名为NULLIFZERO的函数。我想在SparkSQL中模拟/模拟这些功能(而不是使用dataframe或RDD，而是在SparkSQL中使用它们，在这里直接传递SQL)。有什么想法吗？

浏览 1提问于2018-01-25得票数 2

回答已采纳

1回答

spark.default.parallelism等价于火花数据仓库

问题背景显然，RDD和DataFrame的分娩控制是不同的。Dataframe有spark.sql.shuffle.partitions来控制重装分区(如果我正确理解的话，可以进行广泛的转换)，而"spark.default.parallelism“不会产生任何影响如果您正在

浏览 6提问于2019-11-18得票数 2

回答已采纳

4回答

星火DataFrame和重命名多列(Java)

、、

在给定的SparkSQL DataFrame中，是否有比多次调用dataFrame.withColumnRenamed()更好的前缀或重命名所有或多列的方法？例如，如果我想检测更改(使用完全外部联接)。然后留给我两个具有相同结构的DataFrame。

浏览 7提问于2015-10-08得票数 15

回答已采纳

2回答

计算Spark DataFrame中分组数据的标准差

、、

为了利用SparkSQL查询功能，我从csv中获取了用户日志，并将其转换为DataFrame。单个用户每小时将创建多个条目，我想为每个用户收集一些基本的统计信息；实际上只是用户实例的计数、平均值和许多列的标准差。我能够通过使用groupBy($"user")和带有用于计数和平均的SparkSQL函数的聚合器快速获得平均值和计数信息： val meanData =

浏览 1提问于2015-08-03得票数 22

回答已采纳

1回答

如何在databricks notebook中将pyspark.sql.dataframe.DataFrame转换回SQL表

、、、、

我通过执行以下行创建了pyspark.sql.dataframe.DataFrame类型的数据帧：dataframe = sqlContext.sql("select * from my_data_table") 如何将其转换回可以运行sql查询的sparksql表？

浏览 0提问于2016-08-20得票数 10

回答已采纳

1回答

org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema不能被强制转换为t

、

我正在尝试将dataframe中的Row转换为case类，并得到以下错误 Sample Log = {"Id": "1"

浏览 0提问于2019-08-19得票数 1

1回答

如何在SparkSQL中捕捉铸造问题

、、

当使用SparkSQL 2.1.1版本时，错误的转换会导致目标值被设置为(null)。- ----------------- ---------- 在这种情况下，我想告诉/警告用户，通过假脱机的次数，甚至可能是受影响的行号。我已经尝试的是向DataFrame中添加一个列，并在每一行的</

浏览 0提问于2018-12-11得票数 4

回答已采纳

1回答

Spark2.2Scala DataFrame从字符串数组中选择，捕获错误

、、、

我刚开始使用SparkSQL/Scala，我正在为一些看似简单的任务而奋斗。["a", "

浏览 1提问于2017-12-07得票数 1

回答已采纳

3回答

Spark SQL语句

、、

下面是我的代码，用于查找10000到20000年间的薪资：我认为应该有一个使用between的替代解决方案。如何使用between方法？

浏览 1提问于2018-10-12得票数 0

回答已采纳

2回答

PySpark中的列过滤

、、、、

我有一个从Hive表加载的dataframe df，它有一个时间戳列，比如ts，字符串类型为dd-MMM-yy hh.mm.ss.MS a (转换为python日期时间库，这是%d-%b-%y %I.现在，我想从数据帧中过滤前五分钟的行： datetime.strptime(df.ts, '%d-%b-%y %I.%M.minutes=5)但是，这不起作用，我收到以下消息 Type

浏览 3提问于2015-07-14得票数 6

回答已采纳

2回答

了解如何在星火中执行Hive SQL

、、、

我是新来的火花和蜂巢。我需要了解当蜂箱表在星火中被查询时后面发生了什么。我正在使用PySparkwarehouse_location = '\user\hive\warehouse'sparkwarehouse_location).enableHiveSupport().getOrCreate() 在上述情况下，实际的SQL是在s

浏览 0提问于2018-05-07得票数 0

回答已采纳

1回答

sparkRDD和大文件比较

、、、

文本文件将如下所示：url2和一个样例JSON文档：我希望找到与文本文件中的项相对应的/files") json_rdd = json_files_rdd.filter(lambda x: (json.loads(x)).get("url") in urls

浏览 1提问于2016-06-01得票数 0

4回答

在Spark中使用Dataframe编写SQL

、、、

我目前正在迁移我的应用程序的摄取代码，其中包括在HDFS中摄取数据，在HDFS中使用原始数据和应用层，并执行CDC(变更数据捕获)，这是目前在Hive查询中编写的，并通过Oozie执行。这需要迁移到Spark应用程序(当前版本1.6)中。代码的另一部分稍后将迁移。在spark中，我可以直接从Hive中的表创建数据格式，只需按原样执行查询(如sqlContext.sql("my hive h

浏览 1提问于2017-08-01得票数 43

回答已采纳

点击加载更多