作为PySpark DataFrame中新列的行的模式

文章/答案/技术大牛

发布

2回答

、、、

是否可以基于先前列的最大值添加新列，其中先前的列是字符串文字。"white" ), ['ID','cash','colour_body','colour_head','colour_foot', 'max_v'] ) 如果没有最大可检测到的颜色，则应使用最后有效的颜色。是否有某种可用的反可能性或udf？

浏览 32提问于2019-06-04得票数 1

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

2回答

PySpark配置单元SQL -未插入数据

、、、、

我想插入一些数据，我的表“测试”通过一个pySpark脚本(火种的python)。我首先在HUE的图形界面中为Hive创建了一个表"animals“，感谢下面的查询：于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1，dog)：from pyspark import SparkConte

浏览 2提问于2018-01-25得票数 0

1回答

Dataframe中新列的PySpark 1.5组和

、、、、

我试图使用groupBy和sum (使用PySpark 1.5)在中创建一个新列(“PySpark”)。我的数字列已被转换为长列或双列。用来形成groupBy的列是字符串和时间戳。我的代码如下我对错误的追踪到了那一行Cannot co

浏览 2提问于2016-03-07得票数 2

回答已采纳

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], "event&

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为</em

浏览 1提问于2018-12-17得票数 0

2回答

我是否可以从另一个数据帧行创建数据帧

、、

我可以使用Pyspark从下面的行创建一个dataframe，作为新dataframe的列吗？

浏览 1提问于2021-01-13得票数 0

1回答

如何根据行的内容拆分pyspark数据

、、、、

我想根据DataFrame中一行的第一个字符来分割文件。原始数据有一列，数据包括输入样例文件(Pyspark)：我想要一个DataFrame文件名作为数据的分割。文件名放在DataFrame

浏览 3提问于2019-10-10得票数 1

回答已采纳

2回答

pyspark withColumn，如何改变列名

、、

有没有办法用pyspark 2.1.0创建/填充列，其中列的名称是另一个列的值？colName to targetColName's value cols = dataFrame.columnsTypeError: 'Column' ob

浏览 0提问于2018-09-13得票数 1

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

在1节点和2节点集群上加入的数据的吡火花性能(混叠数据)

、、、

我有一个脚本片段，我运行在不同的集群设置上，在pyspark 2.4上v2= {}_new'.format(x,x )) tmp.show() 这两种都是带有200+列和150万条记录的数据格式，因此out dataframe有400+列，这些列</em

浏览 1提问于2020-07-30得票数 0

1回答

删除pyspark中的嵌套列

、、、、

我有一个包含一列结果的pyspark数据帧。在结果列中，我想删除列"Attributes“。dataframe的模式是：(在结果中有更多的列，但为了方便起见，我没有显示它们，因为模式很大) |-- results: struct (nullable = true) | | | | |

浏览 20提问于2020-06-15得票数 0

回答已采纳

1回答

在PySpark* DataFrame中添加多个空列*

、

有人能建议我如何在pyspark dataframe中添加多个空列吗？目前我正在做这样的事情，但它不起作用： for col in column_list: return dataframe 在应用add_columns函数

浏览 1提问于2018-09-14得票数 0

2回答

从pyspark中的字典列创建数据帧

、、、、

我想从pyspark中现有的dataframe创建一个新的dataframe。数据帧"df“包含一个名为"data”的列，该列具有字典行，并具有字符串形式的模式。并且每个字典的键都不是fixed.For，例如，name和address是第一个行字典的键，但对于其他行来说情况并非如此，它们可能不同。如何转换为包含单个列<

浏览 2提问于2018-11-09得票数 1

1回答

PySpark将列拆分到具有应用架构的新数据帧

、、、

如何通过逗号将字符串列拆分为具有应用模式的新数据帧？作为示例，下面是一个包含两列(id和value)的pyspark DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value列并将其拆分到一个新的Da

浏览 18提问于2021-11-10得票数 1

1回答

读取几行列数不同的CSV文件

、、、、

我在ADLS 2中有一个CSV文件，在几行中有不同的列计数。第一排有8列，第二排有12列。当我试图用它来创建Pyspark dataframe时，它创建了基于第一行的df，即带有8列的dataframe，而忽略了第二行的4列。我也尝试过使用ADF映射数据流，但是正在创建相同的模式。我还试图生成模式，因为我知道

浏览 1提问于2022-06-30得票数 -1

1回答

Pandas read_csv()：如果与架构不匹配，则删除行

、、、、

我有一个csv文件，需要读取并解析为Pandas dataframe。理论上，所有列都应该遵循已知的数字数据和字符串模式。我知道一些记录被打破了，要么是字段数量减少，要么是顺序错误。我想要做的是摆脱所有这些有问题的行。作为参考，在PySpark上，我经常使用'DROPMALFORMED'来过滤出与模式不匹配的记录。StructType([ StructField(&q

浏览 26提问于2019-02-17得票数 0

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将<em

浏览 8提问于2022-10-14得票数 0

回答已采纳

点击加载更多