选择并转换pyspark数据框中的列名

文章/答案/技术大牛

发布

1回答

、

我有一个pyspark格式的数据框。我想从该data frame中选择一些列，并将它们转换为小写。= df.schema.names[2:] test_list = [c.lower() for c in df1] 我能够实现我想要的，

浏览 4提问于2018-03-05得票数 0

回答已采纳

2回答

PySpark自定义项，仅输入处的值为None

、、、、

我在我的Kafka流媒体应用程序中的UDF函数有问题。每次调用UDF函数时，输入上只有None值，而不是有效列值。然后引发TypeError，因为应用程序需要str，而不是None。.withColumn("destinationAS", get_asn('destinationIPv4Address'))TypeError: search_best() argument 1 mu

浏览 16提问于2020-05-06得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

选择一行并根据最大值显示列名。

、、、

我有一个Pyspark数据框架+---+----+----+----+|ID2| 4| 12| 7|+---+----+----+----+|colC| +--

浏览 0提问于2021-02-20得票数 0

回答已采纳

1回答

PySpark -从文本文件创建数据框

、、、、

我有一个简单的文本文件，其中包含“事务”。文件中的列名不带引号。我想使用Spark，将这个文件转换成一个数据框，带有列名，我在将文本文件转换为数据<

浏览 0提问于2016-12-14得票数 12

回答已采纳

1回答

[消]电火花数据表列名

、、、

什么是限制火花放电数据的列名。我对下面的代码有异议。%livy.pyspark它给了..。resolve column name "spatialElementLabel.value" among (lightFixtureID.value, spatialElementLabel.value);' 列名显然是正确

浏览 3提问于2017-06-07得票数 0

回答已采纳

1回答

与Scala相比，使用groupBy的Pyspark聚合非常慢。

、、、

我移植了一个Scala代码，它可以简单地聚合到Python中：from utils import notHeader, parse, pprintsrc = "linkage" sc = SparkContext("spark://aiur.local:7077日志显示了各个collect()调用的完成情况有很大的不同。:23 IN

浏览 5提问于2017-01-25得票数 0

5回答

如何在python中将JSON结果转换为Parquet？

、、

按照下面的脚本将JSON文件转换为parquet格式。我正在使用pandas库来执行转换。这是我使用的原始json文件：{ "a"："01"，"b"："teste01“}，{ "a"："02"，"b"："teste02”} 我做错了什么？

浏览 35提问于2019-12-02得票数 11

1回答

复制pyspark数据框中的列

、

我在pyspark中有一个类似下面示例的数据框。我想复制数据框中的列，并将其重命名为另一个列名。Name Age RateBen 32 98期望的输出为： Name Age

浏览 5提问于2018-05-18得票数 13

回答已采纳

3回答

删除pyspark中所有列名中的空格

我是pySpark的新手。我收到了一个csv文件，大约有1000列。我正在使用databricks。大多数这些列之间有空格，例如“总收入”，“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了但它在databricks上的Pyspark中</em

浏览 1提问于2019-08-02得票数 1

1回答

PySpark Count () CASE WHEN [duplicate]

这个问题在这里已经有答案了：如何在Spark SQL中使用连字符转义列名 (3个答案) 列名中包含破折号/连字符的PySpark Sql (1个答案) 使用selectExpr选择其中包含特殊字符的spark dataframe列 (1个答案) 如何在SparkContext中处理dash的SQL请求 (1个答案) 3个月前就关门了。我正在尝试基于多个CASE语句进行计数，使用PySpark s

浏览 70提问于2020-11-30得票数 0

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split(

浏览 0提问于2016-06-22得票数 0

2回答

作为记录数据出现在Pyspark数据库中的列名

、、、

我从Kaggle (Covid Live.csv)下载了一个示例csv文件，表中的数据在可视化代码中打开时如下所示(原始CSV数据仅为部分数据)#,"Country,from pyspark.sql.types import * df1 = spark.read.forma

浏览 9提问于2022-10-21得票数 0

2回答

绑定到数据集选定行

、、、

是否可以将文本框绑定到组合框中选定的数据集的行？例如，我有一个包含两列的数据集，一列名为name (这是主键)，另一列名为author。我想设置数据绑定，这样当用户在组合框中选择姓名时，相应的作者就会出现在文本框的文本中。具体地说，我想知道这是否可以通过数据绑定来完成，或者是否需要select

浏览 0提问于2012-03-29得票数 0

回答已采纳

1回答

从oracle检索时，值将转换为浮点数

、

oracle中使用pyspark检索时的列数据类型为NUMBER的数据库将转换为float。例如：ID列-数据类型编号在检索时具有值111该值显示为111.000000 列名是动态的，我不想通过硬编码来转换它。oracle中的数据是否可以按其在数据库中的显示方式进行检索。

浏览 28提问于2019-03-04得票数 0

1回答

如何在pyspark* dataframe中选择列和强制转换列类型？*

、

我有一个非常大的pyspark dataframe，我需要在其中选择很多列(这就是为什么我想使用for而不是写每个列名)。除了需要作为StringType()保存的一列(列"ID")之外，我需要将这些列中的大多数转换为DoubleType()。当我选择需要强制转换为DoubleType()的所有列时，我使用以下代码(它可以工作)： df_num2 = df_num1.select

浏览 32提问于2021-11-17得票数 1

回答已采纳

1回答

在PySpark中将二维矩阵-数据转换为平面表

、、、、

我有一个PySpark数据文件，如下所示： a 997 154.5 0.8 ..我想把这个转换成一个像这样的平面表：a header2 154.5b header1 0.3等。每个标题列名都是唯一的。第一个列名是ID。如何在PySpark中最有

浏览 0提问于2018-10-25得票数 0

回答已采纳

1回答

如何使用其他数据create (PySpark)创建数据文件？

、、

我使用的是PySpark v1.6.1，我想使用另一种方法创建一个数据文件：现在正在使用.map(func)使用该函数创建一个RDD (该函数从原始类型中的一行进行转换，并返回带有新类型的</em

浏览 0提问于2017-12-27得票数 3

回答已采纳

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

3回答

蜂巢兽人返回零

、、、

我正在创建hive外部表ORC (位于S3上的ORC文件)。命令运行查询后的：|有趣的是，返回的记录数量为10，而且它是正确的</

浏览 7提问于2017-10-24得票数 1

点击加载更多