将PySpark数据帧提取列作为数组_pyspark等同于将常量数组作为列添加到数据帧中_将txt文件作为PySpark数据帧读取 - 腾讯云开发者社区

、、、、

我想使用PySpark提取SharePoint列表数据。我不确定Sharepoint列表数据和存储。我想以PySpark数据帧的形式读取SharePoint列表数据。我尝试过Python Libraies: Sharepy Slum和许多其他库

浏览 2提问于2019-05-24得票数 2

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark来处理这种情况？感谢您的回复。 df[Name].show() Java Oracle .NET df1[Name].show() Oracle Scala .NET python

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

1回答

从PySpark中的复杂列中提取值

、、

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

2回答

从Pyspark Dataframe列提取文件扩展名

、、

我有一个带有列FullPath的pyspark数据帧。如何使用函数os.path.splitext(FullPath)提取FullPath列中每个条目的扩展名并将其放入新列？谢谢。

浏览 0提问于2018-03-19得票数 2

2回答

以每列为关键字将PySpark数据帧转换为JSON

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

尝试将元素插入到pyspark dataframe的数组列时出现奇怪的输出

、

我尝试在这个pyspark数据帧的数组列的开头插入0。我就是这么做的 from pyspark.sql.types import ArrayType, IntegerType udf_addEle = F.udf(lambda x: [0]+(x), ArrayType(IntegerType())) labs.select(udf_addEle(F.col('glu_agg'))).show() 然而，当我运行它时，我得到了这个奇怪的输出。找不到原因。有谁能帮帮忙。我应该怎么做才能避免这个错误？非常感谢。

浏览 7提问于2019-11-25得票数 0

回答已采纳

1回答

如何在pyspark中读取json的字符串(json字符串有双引号

、、、

我有一个这样的csv文件： "request" "{""CustomerId"":""1"",""EffectiveTime"":""2021-07-30T12:00""}" "{""CustomerId"":""2"",""EffectiveTime"":""2021-07-30T13:00""}&

浏览 45提问于2021-09-22得票数 0

2回答

如何在Pyspark中优化我的Reduce函数

我正在尝试创建数据帧中的键之间的映射。我在pyspark数据帧中有一列R_ID、V1、V2、V3列。我需要输出数据帧来提供这些列之间的映射。我的结果应该是我已经使用Reduce做到了这一点，但是我在测试大数据时遇到了性能问题。有人能帮我一下吗？

浏览 0提问于2021-10-28得票数 0

1回答

如何分解pyspark dataframe中的map类型？

、、

我有一个数据帧 import os, sys import json, time, random, string, requests import pyodbc from pyspark import SparkConf, SparkContext, SQLContext from pyspark.sql.functions import explode, col, from_json, lit from pyspark.sql import functions as f from pyspark.sql import SparkSession from pyspark.sql.types

浏览 28提问于2020-10-06得票数 0

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

1回答

如何使用pyspark从dataframe的date列中提取年份

、、、、

浏览 39提问于2021-04-21得票数 0

回答已采纳

2回答

从PySpark数据帧获取第一个元素

、、、

我有一个PySpark数据框架，它只包含一个元素。如何从数据帧中提取数字？例如，如何从PySpark数据帧中获得数字5.0？ +-----------------+ | count | +-----------------+ | 5.0 | +-----------------+

浏览 0提问于2022-07-13得票数 1

回答已采纳

1回答

创建包含n个其他列表中按比例数量的数据的列表

、

PySpark编程新手。我一直在尝试这个问题，想知道是否有更有效的方法来解决它。我有15个数据帧，每个数据帧包含2列:网站名称和点击量。这些数据帧中的每一个都有不同数量的记录。我想要一个最终的数据帧，在这里我从每个数据帧(基于命中率)中获取最高记录，并将它们添加到那里。问题是，我从每个数据库中提取了一定数量的记录。例如，如果我最终想要1500条记录，而我只有2个大小分别为10000和5000的数据帧，那么我将从第一个数据帧中提取1000条数据帧，从第二个数据帧中提取500条数据帧。所以目前，我有一个类似这样的实现：每个数据帧上的调用计数()。现在我有了每个数据帧的长度，这样我就可以根据命

浏览 1提问于2017-09-11得票数 0

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

如何在pyspark中解压list类型的列

、、、

浏览 29提问于2020-01-24得票数 0

回答已采纳

2回答

pyspark -拆分后对数组(StringType())类型的列中的值求和的最佳方法

、、、、

我有一个像这样的数据框架， name | scores Dan | [1_10, 2_5, 3_2, 4_12.5] Ann | [2_12.4, 3_4.5, 5_9.3] Jon | [2_1.7] 对于每一行，我希望从scores列的项目中提取数值(拆分下划线的项目并取索引1)，该列是一个字符串，并对该列求和。我的预期答案将如下所示： name | Total Dan | 29.5 Ann | 26.2 Jon | 1.7 我的数据帧非常大，在最坏的情况下，数组列可以包含数百万个项目。基于解决方案的分解对我来说是行不通的，因为爆炸后数据帧太大了。我的驱动程

浏览 79提问于2021-02-03得票数 1

回答已采纳

2回答

如何将pyspark dataframe列转换为numpy数组

、、、

我正在尝试将一个大约有9000万行的pyspark dataframe列转换成一个numpy数组。我需要数组作为scipy.optimize.minimize函数的输入。我尝试过转换为Pandas和使用collect()，但这些方法非常耗时。我是PySpark的新手，如果有更快更好的方法，请帮助我。谢谢这就是我的数据帧的样子。 +----------+ |Adolescent| +----------+ | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0|

浏览 138提问于2019-09-30得票数 3

回答已采纳

1回答

Python spark从dataframe中提取字符

、、

我在spark中有一个数据帧，大概是这样的： ID | Column ------ | ---- 1 | STRINGOFLETTERS 2 | SOMEOTHERCHARACTERS 3 | ANOTHERSTRING 4 | EXAMPLEEXAMPLE 我想要做的是从列中提取前5个字符加上第8个字符，并创建一个新列，如下所示： ID | New Column ------ | ------ 1 | STRIN_F 2 | SOMEO_E 3 | ANOTH_S 4 | EXAMP_E 我不能使

浏览 0提问于2016-12-02得票数 13

回答已采纳

1回答

如何在星火中的Logistic回归分类器中传递多列作为特性？

、、、、

我试图使用一个简单的数据集来运行Logistic回归，以理解pyspark的语法。我有数据，看上去有11列，其中前10列是特性，最后一列(第11列)是标签。我想传递这10列作为特征和第11列作为标签。但是我只知道作为一个列传递，使用featuresCol="col_header_name"作为一个特性传递，我使用熊猫读取了csv文件中的数据，但我已经将其转换为RDD。以下是代码： from pyspark.ml.classification import LogisticRegression from pyspark.sql import SQLContext from pys

浏览 0提问于2019-02-19得票数 3

回答已采纳

3回答

从DataFrame中提取字符串

、

我希望从我的pyspark dataframe中的一列XML数据(字符串)中提取一个字符串。我希望为每个客户提取ProductName的价值。以下是数据的示例： Customer, Product A, <XmlData ProductName="123">....</XmlData><XmlData ProductName="1452">....</XmlData> B, <XmlData ProductName="123">....</XmlData> C, &

浏览 3提问于2020-06-18得票数 0

1回答

将3级嵌套字典键值转换为pyspark dataframe

、、、

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 另外，每一行中的键也会有一些变化，例如，一些行可能有其他行没有的字段。我希望包括所有字段，如果一条记录没有某些字段/keys，则该值可以显示为"null“。请告诉我如何才能做到这一点。谢谢!

浏览 22提问于2020-07-22得票数 0

1回答

有没有办法在pyspark中加速缓存过程？

、

我正在尝试缓存一个基于Pyspark的3列27行的数据帧，这个过程大约需要7-10秒。有没有什么方法可以加速这项工作？提前感谢！

浏览 1提问于2020-07-20得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----+ |Name | +-----+ | a| | b| | c| +-----+ Dataframe B:共3条记录 +-----+ |Zip | +-----+ |06905| |06901| |06902| +-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Dataframe B中随机选择的值填充这些值。因此，Dataframe A将如下所示： +-----+-----+ |Name |Zip | +-----+-----+ |

浏览 12提问于2021-02-10得票数 2

回答已采纳

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

Pyspark:基于其他pyspark数据框架中的列名创建一个pyspark数据框架

我有两个pyspark dfs df1有列- a，b，c，d，e，f df2有列- c，d，e(列名不断动态变化) 我想要一个从df1中提取的基于df2中的列名的df3数据帧。所以基本上我想根据df2中的列从df1中选择列(df2列不断变化) 在上面的示例中，结果df应该具有列- c，d，e(从df1中提取) 我找不到任何可以做到这一点的方法。请帮帮忙

浏览 11提问于2020-08-02得票数 0

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型的核，以TFIDF向量作为特征，以JournalID作为标签。由于多类支持向量机不存在于pys

浏览 1提问于2018-12-17得票数 0

1回答

数据库的Pyspark/jupyter笔记本显示问题

、、

我尝试在jupyter notebook上使用PySpark。但是当我想要查看数据帧(的一部分)时， ? ...(有些列甚至没有显示)。我想要一个陈列品 ? 。你知道怎么做吗？

浏览 19提问于2020-07-07得票数 1

回答已采纳

2回答

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，但实际为双精度。‘

、、

我有一个包含多个分类列的数据帧。我正在尝试使用两列之间的内置函数来查找菱形统计数据： from pyspark.ml.stat import ChiSquareTest r = ChiSquareTest.test(df, 'feature1', 'feature2') 但是，它给出了一个错误： IllegalArgumentException: 'requirement failed: Column feature1 must be of type struct<type:tinyint,size:int,indices:array<in

浏览 1提问于2020-04-06得票数 8

回答已采纳

1回答

删除pyspark中的嵌套列

、、、、

浏览 20提问于2020-06-15得票数 0

回答已采纳

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

3回答

我只需要附加那些在pyspark dataframe中具有非空值的值

、、、、

我有如下样本表(Table1)的pyspark数据帧(df)：id，col1，col2，col3 1，abc，null，def 2，null，def，abc 3，def，abc，null 我试图通过忽略NULL值附加所有列来获得新列(最终)。我尝试过pyspark代码，并使用了f.array(col1，col2，col3)。值将被追加，但它不会忽略空值。我还尝试过UDF仅附加非空列，但它不起作用。 <code>A0</code> 如果问题不清楚或需要更多信息，请让我知道。任何帮助都将不胜感激。:)

浏览 24提问于2019-08-23得票数 3

回答已采纳

1回答

为pyspark中的唯一行生成sequence列

、

我有一个pyspark数据帧，如下所示： <code>A0</code> 我想添加一个新的列，它将为这些唯一的行生成索引，如下所示： <code>A1</code> 请帮助我使用pyspark生成这个新专栏。提前感谢！

浏览 24提问于2018-12-21得票数 4

回答已采纳

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

1回答

将libsvm格式字符串("field1:value field2: DenseVector“)转换为值的值

、、、、

我有一个libsvm格式的专栏(spark的ml库) field1:value field2:value ... +--------------+-----+ | features|label| +--------------+-----+ | a:1 b:2 c:3| 0| | a:4 b:5 c:6| 0| | a:7 b:8 c:9| 1| |a:10 b:11 c:12| 0| +--------------+-----+ 我想提取这些值，并将它们保存在pyspark中每一行的数组中 features.printSchema() root

浏览 0提问于2019-06-19得票数 1

2回答

将结构类型列分解为pyspark中的两列键和值

、、

浏览 11提问于2020-03-14得票数 1

4回答

如何在python dataframe中找到列的最大值

、、

我在pyspark中有一个数据帧。在这个数据框架中，我有一个名为id的列，它是唯一的。现在，我希望在数据帧中找到列id的id值。我试过如下所示 df['id'].max() 但却在错误之下 TypeError: 'Column' object is not callable 请告诉我如何在数据帧中找到列的maximum值。在@Dadep的答案中，链接给出了正确的答案

浏览 3提问于2017-05-11得票数 14

回答已采纳

1回答

Pyspark删除多列连接后的列

、、

我尝试在pyspark中对两列进行左连接，其中只有一列的名称是相同的：如何删除连接的数据帧df2.date和df2.accountnr的两列 dfAll = ( df1 .join(df2, [df1.order_date == df2.date, df1.accountnr== df2.accountnr], how = 'left') ) 不幸的是，添加.drop(df2.date, df2.accountnr) (错误: col应该是一个字符串)或.drop('date', 'accountn

浏览 30提问于2019-02-10得票数 0

1回答

如何将SQLContext数据转换为向量的RDD？

、

我有一个SQLContext数据框架，它是由几个数字列组成的熊猫数据框架。我想使用pyspark.mllib.stats包进行多元统计分析。统计函数期望向量的RDD。我无法将此数据帧转换为向量的RDD。有办法转换数据帧吗？代码： rdd = sqlCtx.createDataFrame(df_new) summary = Statistics.colStats(rdd) 我得到了df_new df_new = df.applymap(lambda s: dic.get(s) if s in dic else s) #df is a pandas dataframe 我在总结行中得到一个

浏览 0提问于2015-07-01得票数 1

回答已采纳

1回答

在应用pandas udf: IndexError后不能使用.toPandas()或.collect()

、、、

我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后，我得到了pyspark DF作为输出。现在，我想用这个预测数据帧做一些事情，例如，我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时，在.fit()中得到以下错误 IndexError: too many indices for array:array is 0-dimensional, but 1 were indexed 每当我尝试将.collect()或.toPandas()方

浏览 33提问于2020-11-24得票数 0

2回答

使用pyspark根据多个列值删除记录

、

我有一个pyspark数据帧，如下所示： ? 如果两列uniq_id和date_time具有相同的值，我希望只保留一条记录。预期输出： ? 我想用pyspark来实现这一点。谢谢

浏览 28提问于2020-10-06得票数 0

回答已采纳

1回答

有没有一种在连接后只选择一个dataframe列的快捷方式？

、、

我在scala中使用一个数据帧，但该数据帧有大约60列。在Databricks管道中，我们拆分出几个列和一个标识列来验证一些数据，从而产生一个“参考”数据帧。我希望将它连接回主要的大型数据框架，并将经过验证的数据插入到原始列中。为了简单起见，我希望结果数据帧与原始数据帧的模式相匹配，因此没有引用列。在小范围内，这并不太难： myDF = myDF .join(refDF, myDF("Identity") === refDF("RefIdentity"), "inner") .withColumn

浏览 23提问于2021-08-27得票数 1

回答已采纳

2回答

如何反转pyspark dataframe

、

我需要反转我的pyspark数据帧。有没有一种高效的方式在pyspark中做到这一点？？我的datetime列是反转的，所以我需要反转我的dataframe +-------------------+-------+ | date|value_1| +-------------------+-------+ |2018-11-30 23:59:24| 28.02| |2018-11-30 23:58:54| 28.02| |2018-11-30 23:58:24| 28.03| +-------------------+-------+ 有没有办法在pysp

浏览 33提问于2019-10-18得票数 0

回答已采纳

2回答

pivot dataframe将json列转向新列。

、、、、

我希望通过python3从中的json列中提取数据。我的数据： year month p_name json_col 2010 05 rchsc [{"attri_name": "in_market", "value": "yes"}, {"attri_name": "weight", "value": "12.56"}, {"attri_name" : "color", "value" : "

浏览 6提问于2020-07-27得票数 3

回答已采纳

2回答