如何从dataframe中选择多列并转储到pyspark中的列表_如何从pyspark中的dataframe列中选择不同的非空值_如何将dataframe列从列表值改为r中的多列？ - 腾讯云开发者社区

hive、pyspark

我有一个hive表，它是按插入时间列分区的。我有一个pyspark dataframe，除了已分区的列之外，它与表具有相同的列。当表未分区时，以下操作效果很好： df.insertInto('tablename',overwrite=True) 但是我不知道如何从pyspark插入到一个特定的分区。下面尝试过： df.insertInto('tablename',overwrite=True,partition(inserttime='20170818-0831')) 但它不起作用，失败的原因是 SyntaxError: non-keyw

浏览 0提问于2017-09-16得票数 1

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

apache-spark、pyspark、apache-spark-mllib、pca、apache-spark-ml

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。我能够将Hive表导入到： >>> from pyspark.sql import HiveContext >>> hiveContext = HiveContext(sc) >>> dataframe = hiveContext.sql("SELECT * FROM my_table") >>> type(dataframe) <class 'pyspark.sql.dataframe.D

浏览 1提问于2016-10-06得票数 4

回答已采纳

2回答

从pyspark中的一个非常大的数据帧中选择随机列

python、pyspark

我有一个pyspark格式的dataframe，大约有150列。这些列是从连接不同的表中获得的。现在，我的要求是以特定的顺序将数据帧写入文件，例如，首先写入1到50列，然后是第90到110列，最后是第70和72列。也就是说，我只想选择特定的列，并重新排列它们。我知道其中一种方法是使用df.select(“给出你的列顺序”)，但在我的例子中，列非常大，不可能在“select”中写出每一个列的名称。请告诉我如何在pyspark中实现这一点。注意-我无法提供任何样本数据，因为列的数量非常大，并且在我的情况下，列号是主要的道路拦路器。

浏览 1提问于2017-07-14得票数 0

回答已采纳

1回答

如何使用pyspark将数值转换为分类变量

pyspark

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。 1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

如何从PySpark中的向量列中提取浮点数？

python、apache-spark、pyspark、user-defined-functions、pyspark-dataframes

我的星火DataFrame有以下格式的数据： printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)： from pyspark.sql.functions import udf from pyspark.sql.types import FloatType firstelement=udf(lambda v:float(v[0]),FloatType()) df.select(firstelement('col1')).show() 但是，如何将其应用于df的所有列？

浏览 0提问于2020-02-18得票数 1

回答已采纳

2回答

从PySpark DataFrame列中删除元素

pyspark

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如： [1] [1,2] [1,2,3] [2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：删除元素1，结果如下： [] [2] [2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

关于在PySpark中写入拼图的问题

csv、pyspark、parquet

在PySpark中将csv文件转换为parquet时遇到问题。当转换相同模式的多个文件时，它们不具有相同的模式，因为有时数字字符串将被读取为浮点型，其他字符串将被读取为整数，等等。列的顺序似乎也有问题。似乎当编写具有相同列的数据帧时，但是以不同的顺序排列以拼接，那么这些拼接就不能被加载到相同的语句中。如何将dataframe写入parquet，以使所有列都以字符串类型存储？如何处理列的顺序？在写入拼图之前，我是否应该将所有数据帧的列重新排列为相同的顺序？

浏览 23提问于2021-01-20得票数 0

2回答

从列表中添加列的pySpark

python、dataframe、apache-spark、pyspark、databricks

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多列的代码。 mylist = ['ConformedLeaseRecoveryTypeId', 'ConformedLeaseStatusId', 'ConformedLeaseTypeId', 'ConformedLeaseRecoveryTypeName', 'ConformedLea

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

sql、postgresql、apache-spark、jdbc、pyspark

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。 id使用nextval('my_sequence')从序列中获取其值。 PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我使用以下方法创建id列： df.withColumn('id', lit("nextval('my_sequence')")) Postgres将该列解释

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

在pyspark数据帧中用数字替换字符串

pyspark、pyspark-sql

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？ ---------- | Name | ---------- | nameone| ---------- | nametwo| ---------- 应该变成 -------- | Name | -------- | 1 | -------- | 2 | --------

浏览 9提问于2019-07-25得票数 0

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

amazon-s3、pyspark、pyspark-dataframes

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都包含结构数组的结构等)，所以我认为将所有存储桶合并到一个数据帧中的唯一

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

python、apache-spark、dataframe、pyspark、apache-spark-sql

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的错误，如果你能帮助的话也会得到加分！我有以下Spark DataFrame from pyspark.sql.functions import udf from pyspark.sql import Row fr

浏览 1提问于2016-10-28得票数 4

回答已采纳

2回答

PySpark -拆分所有列中的数组并合并为行

apache-spark、pyspark

在PySpark中有没有一种方法可以同时分解所有列中的数组/列表，并将分解后的数据分别合并/压缩到行中？根据其他因素，列数可以是动态的。从dataframe |col1 |col2 |col3 | |[a,b,c]|[d,e,f]|[g,h,i]| |[j,k,l]|[m,n,o]|[p,q,r]| 到dataframe |col1|col2|col3| |a |d |g | |b |e |h | |c |f |i | |j |m |p | |k |n |q | |l |o |r |

浏览 17提问于2018-02-27得票数 1

回答已采纳

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

Dilema:使表列不排序的最佳方法

android、sorting、android-tablelayout

我正在使用Kotlin创建android应用程序。我有全功能的多列排序。当我单击表标题列时，它将索引添加到排序列列表中。它对两种方式(上升和下降)进行排序。点击它可以改变方向。一切都很好。但是，我想知道从一列中删除排序的最佳解决方案是什么。我没有什么想法，但听起来不太好：第三列上的单击该列上的删除排序。列排序时可见的添加按钮。按钮从排序列表中移除列。我需要一些帮助，因为我不知道如何很好地实现这个特性。 Edit1: 忘了说排序发生在后端。在android中，我只设置参数，需要对哪些列进行排序，然后将GET请求发送到服务器。作为响应，我得到排序的数据。

浏览 0提问于2020-02-19得票数 0

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

2回答

从pyspark: ValueError中的列表中创建数据

python、dataframe、apache-spark、pyspark

我正在尝试将一个列表转换成一个数据列表，这样我就可以将它作为一个列加入到一个更大的dataframe中。列表中的数据是随机生成的名称，如下所示： from faker import Faker from pyspark.sql.functions import * import pyspark.sql.functions as F from pyspark.sql.types import * faker = Faker("en_GB") list1 = [faker.first_name() for _ in range(0, 100)] firstname = sc.p

浏览 2提问于2021-11-24得票数 1

回答已采纳

1回答

如何使用列表重命名pyspark dataframe的所有列

python、pyspark

我有一个现有的pyspark dataframe，大约有200列。我有一个列名的列表(按照正确的顺序和长度)。如何在不使用structtype的情况下将列表应用到dataframe？

浏览 73提问于2021-09-02得票数 1

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

apache-spark、pyspark、apache-spark-sql

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

2回答

如何修复异常‘无效的参数，而不是字符串或列’，同时连接两个数据文件在火花公子？

apache-spark、pyspark、apache-spark-sql

我正在尝试加入两个数据处理程序： df1，列： document_nbr, line_id, product_id, product_size, reference_nbr, local_cd, invoice_local_cost, invoice_delivery_id, created_by_id, transaction_ind, etl_tmst, record_created_tmst, record_updated_tmst, source_id, line_number, etl_date 加入df1和df2： df2栏： document_nbr, line_id, vari

浏览 1提问于2022-05-10得票数 -1

1回答

在吡火花2.1.0中，如何用十进制值更新列？

python、python-3.x、apache-spark、pyspark

在pyspark 2.1.0中，我有一个列，其中包含了作为字符串的科学标注数字。我需要将它们转换为它们作为浮点数的十进制等价物，例如： "-9.469530778005719E-5" --> -0.00009469530778005719 为此，我使用了十进制库： gar_dataframe.withColumn("lat_rep",decimal.Decimal(gar_dataframe.lat_rep)) 但是，这会引发以下错误： TypeError:不支持从列到十进制的转换基于这个，我应该传递一个列表达式。但是从的角度来看，我不明白如

浏览 3提问于2021-06-18得票数 0

回答已采纳

1回答

使用整行udf过滤Pyspark Dataframe

pyspark、apache-spark-sql、user-defined-functions

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame： my_filter_udf = udf(lambda r: my_filter(r), BooleanType()) new_df = df.filter(my_filter_udf(col("*")) 但 col("*") 引发错误，因为这不是有效的操作。我知道我可以将dataframe转换为RDD，然后使用RDD的filter方法，但我不希望将其转换为RDD，然后再转换回dataframe。我的DataF

浏览 2提问于2018-08-28得票数 4

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

python、pandas、pyspark、apache-spark-sql

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

浏览 4提问于2019-10-09得票数 0

1回答

动态列.withColumn Python DataFrame

python-3.x、pyspark、apache-spark-sql、databricks、azure-databricks

我想在我的星火DataFrame上动态地应用. list中的列名。 from pyspark.sql.functions import col from pyspark.sql.types import BooleanType def get_dtype(dataframe,colname): return [dtype for name, dtype in dataframe.dtypes if name == colname][0] def get_matches(dataframe): return [x for x in dataframe.columns if ge

浏览 3提问于2020-04-21得票数 1

回答已采纳

3回答

如何将数组(即列表)列转换为向量

python、apache-spark、pyspark、apache-spark-sql、apache-spark-ml

这个问题的简短版本！考虑下面的片段(假设spark已经设置为某些SparkSession)： from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) 注意，温度字段是一个浮子列表。我想将这些浮点列表转换为MLlib

浏览 9提问于2017-02-09得票数 75

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

python、pandas、apache-spark、pyspark、apache-spark-sql

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。不幸的是，对需求的更改意味着代码在任何情况下都不能使用pandas udf或映射到rdd。我需要直接在pyspark中执行相同的函数。连续字符删除函数逐字读取字符串，检查单词是否在例外列表中，如果不在例外列表中，则逐个字符移动，将其与前一个字

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

如何连接Pyspark中的特定列

python、pandas、pyspark

在pandas中，Pyspark中特定列连接由以下代码执行： datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用Pyspark尝试了类似的逻辑 datamonthly = datamonthly.join(datalabel , datamonthly['msisdn'] == datalabel['msisd

浏览 13提问于2021-08-30得票数 1

回答已采纳

1回答

方法用于PySpark DataFrame的所有行。

python、pyspark、user-defined-functions

浏览 0提问于2018-04-26得票数 0

回答已采纳

1回答

pyspark有条件地解析固定宽度文本文件

python、apache-spark、pyspark、fixed-width

所以我有一个固定宽度文件，在检查其中某个变量是'01‘还是'02’之前，我不知道它的格式。因此，我正在尝试创建这样的东西： <code>A0</code> 基本上，如果rpt编号不是01，列数就会加倍。我非常不确定如何在pyspark中做到这一点

浏览 7提问于2018-12-18得票数 0

1回答

使用基于列的发生的Pyspark数据框架过滤器

python、apache-spark、dataframe、pyspark

我有pyspark dataframe，我想过滤包含列A和B的dataframe。现在，我只想得到B的值，其中A的出现次数大于某个数字N。 A列是like和id，它们可以有重复的值。现在我正在做group by，过滤和使用值列表，效率不高，所以我在寻找有效的解决方案。示例 N=5 输入预期输出您可以看到，由于阈值为5，因此只有列A的ID1和ID3被选中，其余的都被排除在外。

浏览 0提问于2018-08-27得票数 1

1回答

如何在PySpark中获取列的最后值

python、pyspark、pyspark-sql

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。假设我们有一个带有A列的dataframe df。我想要创建另一个dataframe，它只包含最后一个值为A的一个列(这里的最后一个值是指列A底部的真正记录)。我已经试过了 df["A"][-1]，但我错了。请注意，如果可能的话，我希望可以为PySpark和Pyspark中的Python代码提供一个解决方案。

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

DynamicFrame.fromDF在使用glueContext.write_from_options()写入数据库时会造成极大的延迟

pyspark、aws-glue

我有一个胶水作业，其中我需要从Server的两个表中读取数据，执行一些联接/转换，并将其写回Server中的另一个新的/截断表。要写入的数据大小约为15 be。我尝试了两种方法，如下所示，并看到了性能上的巨大差异。我正在考虑在10分钟内完成这项工作。方法1-大约需要17分钟(从Server读取数据、转换、写入S3、从S3读取数据、将数据写回Server) 将数据从approx.)Perform读取到火花数据存储(在火花数据处理上的3-5秒glueContext.create_dynamic_frame.from_options()转换(约5秒))将数据写入临时存储到S3 (约8分钟左右)从

浏览 9提问于2022-10-14得票数 0

2回答

如何在pyspark中合并重复的列？

apache-spark、pyspark、apache-spark-sql

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？任何帮助都将不胜感激。

浏览 57提问于2021-06-18得票数 2

回答已采纳

1回答

从另一个DataFrame向Pyspark DataFrame添加列

python、apache-spark、pyspark

浏览 14提问于2020-12-05得票数 0

回答已采纳

1回答

打印ResultIterable对象的内容

apache-spark、pyspark

如何打印具有行和列列表的pyspark.resultiterable.ResultIterable对象的内容？有内置的功能吗？我想要像dataframe.show()这样的东西

浏览 5提问于2016-10-14得票数 2

回答已采纳

1回答

列或行最大限制的Pyspark数据帧

python、pyspark、databricks

我有一个在databricks中创建的pyspark笔记本。我有一个dataframe，需要动态添加列，目前列数是186。当我到达python行的长度为10000时，我看不到None、Lit等的颜色编码，并且我的notebook单元格在行大小达到10000之后无法识别size列声明。 python中的一行有大小限制吗？如果是这样的话，有没有更好的方法将这些列添加到数据帧中，使用列表？谢谢, 尤娃

浏览 17提问于2019-03-19得票数 0

2回答

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

apache-spark、apache-spark-sql、pyspark、spark-dataframe、pyspark-sql

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。 url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不在主键中)。我尝试过不同的模式(追加、覆盖) DataFrameWriter.jdbc()函数。我的问题是，我们如何像在mysql中使用ON DUPLICATE K

浏览 4提问于2015-09-16得票数 12

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

python、dataframe、apache-spark、pyspark

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新列，如果两个数据文件中存在相同的ID，则创建一个显示“True”或“False”的新列。到目前为止，我有这个 def doValuesMatch(df1, df2): left_join = df1.join(df2, on='ID&#

浏览 3提问于2021-12-11得票数 0

1回答

如何解决？(将列表添加到列dataframe pyspark)

python、list、dataframe、pyspark

如果我已经存在数据帧，且我想要向数据框中添加新列 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import Row numbers=[1,2,30,4] rdd1 = sc.parallelize(li) row_rdd = rdd1.map(lambda x: Row(x)) test_df = sqlContext.createDataFrame(row_rdd,['numbers']) ------------------------------------

浏览 0提问于2020-10-05得票数 1

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c']) sparkdf = sqlContext.createDataFrame(df, samplingR

浏览 0提问于2015-08-11得票数 6

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

apache-spark、spark-dataframe、apache-spark-2.0

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用： data = spark.read.csv('data.csv', header=True) 我使用以下命令找到数据的类型 type(data) 结果是 pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。 from pyspark.sql.types import * from pyspark.sql.functions import loc from pyspark.mllib.regression

浏览 4提问于2016-09-08得票数 6

1回答

Pyspark使用.filter()过滤掉空列表

python-2.7、filter、pyspark、pyspark-sql

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。 import pyspark.sql.functions as sf df.filter(sf.col('column_with_lists') != []) 返回以下错误： Py4JJavaError: An error occurred while calling o303.notEqual. : java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

Pyspark通过列表理解从datetime获取时间属性

datetime、pyspark、python-datetime、pyspark-dataframes

我有一个pyspark dataframe df： +-------------------+ | timestamplast| +-------------------+ |2019-08-01 00:00:00| |2019-08-01 00:01:09| |2019-08-01 01:00:20| |2019-08-03 00:00:27| +-------------------+ 我想通过列表理解将列‘年’、‘月’、‘日’、‘小时’添加到现有的数据帧中。在Pandas中，这是这样做的： L = ['year', 'month', '

浏览 4提问于2020-05-27得票数 0

回答已采纳

2回答

PySpark -检查字符串列是否包含字符串列表中的单词并提取它们

python、apache-spark、pyspark

我想检查列表中的项目是否在列中的字符串中，并知道其中的哪些。假设我有一个PySpark Dataframe，它包含有25M行的id和description，如下所示：我有一个这样的字符串列表： technos = ["SQL", "NodeJS", "R", "C++", "Google Cloud"...] 我想检查一下，在我的数据中的每一个描述，哪些项目从technos列表中找到。在输出方面，我希望如下所示：到目前为止，我尝试过的一切都失败了。我尝试在for loop中使用UDF和pyth

浏览 9提问于2022-10-14得票数 1

1回答

在PYSPARK中从联接表中选择所有列

python、apache-spark、pyspark

我有一个'type = pyspark.sql.dataframe.DataFrame‘的数据，我想从这个数据df和另一个具有相同类型的数据df1中选择所有列。我从r创建df，这是一个元组列表。 df = spark.createDataFrame(r, schema =column ) df_final = spark.sql('select * \ from df \ Inner Join df1 \ on df.a = df1.b') 我有一个错误: AnalysisE

浏览 4提问于2022-07-08得票数 0