从pyspark数据帧列创建列表时，flatMap不会保留顺序

、、、、

我有一个PySpark数据帧df：|ceil_temp| test2|| 1|[6469640, 6531963]|我最终想在这个数据框中添加一个新列将ceil_temp和test2提取为列表： m =df.select

浏览 9提问于2017-08-11得票数 0

1回答

使用spark将数据插入配置单元表的问题

、、、

目前我正在开发Spark版本2.1.0，作为我的数据摄取工作的一部分，我必须使用ingest方法将数据摄取到hive表中。但是Spark 2.1版本有一个bug，当插入数据到hive表中时，insertinto方法不会保持列顺序。我已经尝试在append模式下使用saveAsTable方法，但它不会起作用，因为在数据摄取之前，我首先使用正确的数据类型手动创建表。我尝试从现有的hiv

浏览 15提问于2019-02-26得票数 0

2回答

迭代和计算列的更有效的方法

、

我有一个非常宽的数据帧> 10,000列，我需要计算每个列中空值的百分比。

浏览 0提问于2017-09-24得票数 1

1回答

如果包含字符串列表，则过滤pyspark dataframe

、

假设我们有一个pyspark数据帧，其中一列(column_a)包含一些字符串值，还有一个字符串列表(list_a)。数据帧：some_string | 10third_string | 30['string我想过滤这个数据帧，只有当column_a的值包含list_a的项目之一时，才

浏览 0提问于2019-10-01得票数 5

回答已采纳

1回答

PySpark:从数据帧列表创建RDD

、、

我无法从pyspark数据帧列表创建RDD，如下所示：df = sqlContext.createDataFrame(l)df2它适用于像[1,2,3]这样的简单列表，但是当列表的元素变成一个数据帧时，它似乎失败了……请给我建议。我有一个timeseries数据<e

浏览 4提问于2017-04-10得票数 1

1回答

pyspark将列名从列表传递到dataframe函数，如何插值？

、、、、

我不会使用groupBy函数，因此这不是另一个问题的重复。我只需要Dataframe中每列所有值的最大值、最小值、和。代码示例：from pyspark.sql import SQLContext +-----------+ +-----------++-----------++-----------+ 如何<e

浏览 0提问于2018-05-24得票数 1

2回答

PySpark 2.2爆炸删除空行(如何实现explode_outer)？

、、、

我正在处理PySpark数据帧中的一些深度嵌套数据。当我试图将结构扁平化为行和列时，我注意到当我调用withColumn时，如果该行在源列中包含null，那么该行将从我的结果数据帧中删除。要使用的示例数据帧： from pyspark.sql.functions import explode, first, col, monotonically_increasin

浏览 0提问于2018-10-11得票数 2

2回答

我想创建一个具有指定名称的列的pyspark dataframe，其中包含一系列整数(这是为了提供给ALS模型的recommendForUserSubset方法)。因此，我使用range创建了一个整数列表，并找到了显示如何使用SQLContext将列表转换为数据帧的。但是由于我使用的是SQLContext API，而不是旧的，所以我不知道如何创建SparkSession上下文--根据SQLContext上的，我可能不需要这样做：“<e

浏览 1提问于2018-03-21得票数 2

2回答

在pandas dataframe中，当列名通过number重复时，如何将列转换为行？

、

我有一个数据帧列名，如下所示我想像这样将列旋转到行 <code>A1</code>

浏览 14提问于2019-12-03得票数 0

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。当我运行代码时，/yarn/usercache&#

浏览 0提问于2018-12-07得票数 2

2回答

Python Pandas从dataframe中提取列并删除

、、、

它包含一些我想提取的列，它们的标题在continuous_feats中列出，然后我想对它们进行规范化(我目前正在循环中这样做)，最后我想把它们转换成一个numpy数组。我不想复制任何东西。对象"data“不应该包含这些列中的任何一列。如果有更快的选择，我洗耳恭听。

浏览 2提问于2020-03-03得票数 0

1回答

如何在R中连接多个数据帧，但排除某些列？

、、、

我总共有12个数据帧，它们的行数和列数各不相同。我想通过“id”将所有这些数据帧合并在一起。所有这些数据帧在列1中具有'id‘，它在所有数据帧中应该是相似的，但不是相同的。我感兴趣并希望保留的12个数据帧中的所有最后一列。我希望我的最终数据帧的id在第一列，然后是其他数据<

浏览 14提问于2021-11-11得票数 0

回答已采纳

1回答

Groupby和collect_list基于PySpark中的另一列维护顺序

、

我有一个这样的PySpark数据帧， +----------+------------+------------+------------+ | Name | dateCol1 | dateCol2例如，我希望确保对于dateCol1 == '2018-01-11'和dateCol2 == '2018-01-20'，收集到list时将始终获得[user1, user2] (基于dateCol3的顺序数据帧所需的输出是

浏览 45提问于2020-01-17得票数 0

回答已采纳

1回答

使用pyspark从JSON数据生成Hive表

、、、、

我想用json数据创建一个扁平的hive表，它来自另一个hive表(放在一个列-event_ data中)。下面是json数据结构。我已经使用后视图创建了hive表，但现在我想使用pyspark和一些UDF来创建hive表。,"category":"TST","entity":"colleague"},"platform":{"name":"

浏览 0提问于2020-05-13得票数 0

1回答

是否可以将单个数据帧行拆分为多个数据帧行？

、、、

我对pySpark非常陌生，我正在尝试处理来自我可以访问的电表间隔数据集(csv)的一些仪表数据。我有一个从CSV导入的电表数据创建的dataframe schema，如下所示： |-- _c0: string (nullable = true)(i.e.我认为我想

浏览 0提问于2020-10-27得票数 0

2回答

在使用pandas.get_dummies进行一次热编码时保留列顺序

、、

在Pandas数据帧中使用哪一种最佳/最Pythonic的方法来实现一种热编码分类特性，同时保持从其中提取类别(新列名)的列的原始顺序？例如，如果数据框架(Df0)中有三列："Col_continuous“、"Col_categorical”、"Labels"，则使用新的数据

浏览 1提问于2019-04-04得票数 4

0回答

行号的配置单元查询

、、、

我在pyspark上工作，需要编写一个从hive表中读取数据并返回包含所有列和行号的pyspark数据帧的查询。这是我尝试过的：这个查询在hive中运行得很好，但是当我从pyspark脚本运行它时，它抛出了以下错误： Window function row_number() r

浏览 2提问于2017-12-06得票数 0

1回答

转换值并计算stddev

、、

我有一个数据框架，比如：|A | B|| 1| 2|| 300| 4| 我想将其转换为每个A的1和每个B的0的列表，从它们创建一个列表，计算它们的标准差，并将其作为列C添加到数据帧中。在pyspark中这是可能的吗？

浏览 12提问于2018-03-03得票数 0

回答已采纳

3回答

PySpark isin函数

、

我正在使用PySpark将我的遗留Python代码转换为Spark。我希望获得一个等同于以下内容的PySpark：actdataall和orddata都是Spark数据帧。

浏览 2提问于2017-06-09得票数 8

1回答

将json.dumps转换为Python数据帧

、、、

我正在使用IBM Watson的Natural Language Understanding API。我使用API文档中的以下代码来返回存储在Dataframe中的耐克推文的情感分析： from watson_developer_cloud import NaturalLanguageUnderstandingV1 import Features, EntitiesOptions, KeywordsOptions naturalLa

浏览 0提问于2018-12-09得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用spark将数据插入配置单元表的问题

迭代和计算列的更有效的方法

如果包含字符串列表，则过滤pyspark dataframe

PySpark:从数据帧列表创建RDD

pyspark将列名从列表传递到dataframe函数，如何插值？

PySpark 2.2爆炸删除空行(如何实现explode_outer)？

如何使用SparkSession从列表创建数据帧？

在pandas dataframe中，当列名通过number重复时，如何将列转换为行？

PySpark动态连接条件

Python Pandas从dataframe中提取列并删除

如何在R中连接多个数据帧，但排除某些列？

Groupby和collect_list基于PySpark中的另一列维护顺序

使用pyspark从JSON数据生成Hive表

是否可以将单个数据帧行拆分为多个数据帧行？

在使用pandas.get_dummies进行一次热编码时保留列顺序

行号的配置单元查询

转换值并计算stddev

PySpark isin函数

将json.dumps转换为Python数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐