在pyspark 2.2或2.3中，在groupby上添加密集向量列

python-3.x、pyspark、pyspark-dataframes

我使用的是Pyspark 2.2。[1.5,0,1,0]1 | [1,0,0,2] 2 | [1.5,0,2,0] 需要进行元素方面的添加到目前为止，我得到的是： df.groupBy('tag').agg(F.sum('features')).show(5,0) 但这给了我一个错误： cannot resolve 'sum(`features

浏览 21提问于2020-09-10得票数 0

1回答

将两个不同类型的pyspark数据框列相乘(array[double] vs double)，而不需要微风

python、pyspark、pyspark-sql、pyspark-dataframes

我有相同的问题，问here，但我需要一个解决方案，在pyspark和没有微风。例如，如果我的pyspark数据帧如下所示： user | weight | vec"u1" | 0.5 |[4, 8, 12] "u2" | 0.5 | [20, 40, 60] 在列权重的类型为double，列的类型为ArrayDouble的

浏览 26提问于2020-01-08得票数 1

2回答

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，

apache-spark、pyspark、apache-spark-ml

我有一个包含多个分类列的数据帧。我正在尝试使用两列之间的内置函数来查找菱形统计数据： r = ChiSquareTest.test(df, 'feature1

浏览 1提问于2020-04-06得票数 8

回答已采纳

1回答

Parquet文件中groupby的最佳实践

python、pyspark、parquet、dask

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的groupby

浏览 2提问于2017-07-09得票数 3

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。import pysparkimport pyspark.sql.functions as Fd() 四个向量值的列在printSchema() (<em

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

多列密集矢量爆炸柱

python、apache-spark、vector、pyspark、explode

我有一个有两个列的Dataframe：BrandWatchErwaehnungID和word_counts。word_counts列是“`CountVectorizer (稀疏向量)”的输出。在删除空行后，我创建了两个新列，一个列具有稀疏向量的索引，另一个列具有它们的值。.withColumnRenamed("_3", "word_indices").withColumnRenamed("_4"

浏览 1提问于2018-01-31得票数 1

1回答

PySpark在大型数据集上将DenseVector拆分为单独的列

python、azure、apache-spark、pyspark

我正在尝试运行一个函数，该函数接受一个密集向量并将其拆分成单独的列。def extract(row):df = df.rdd.map(extra

浏览 0提问于2017-02-03得票数 0

1回答

用电火花将稠密向量转换成数据

python、pandas、apache-spark、dataframe

我正试图将密集向量转换为dataframe (最好是星火)，并附带列名并遇到问题。from pyspark.ml.linalg import SparseVector, DenseVector tempDenseVector(row[0]

浏览 0提问于2018-09-27得票数 3

回答已采纳

4回答

如何使用pyspark* collect_list函数检索所有列*

python、pyspark

我有一个pyspark 2.0.1。我正在尝试按我的数据框分组，并从我的数据框中检索所有字段的值。我发现将给我的国家和名称的属性和名称属性的值，它将给出的列标题为collect_list但是对于我的工作，我有大约15列的数据帧&我会运行一个循环，每次在循环中改变groupby字段，需要所有剩余的fields.Can的输出，你能

浏览 6提问于2017-10-18得票数 3

1回答

pyspark dataframe“条件应为字符串或列”

python、dataframe、filter、pyspark

我一直收到错误“TypeError(”条件应该是字符串或列“)” 我已经尝试更改滤镜以使用col对象。尽管如此，它还是不起作用。import coldisplay(answerthree) 我为变量"answerthree“<em

浏览 21提问于2019-02-02得票数 0

回答已采纳

1回答

不带groupby的计数和非重复计数使用PySpark

python、pyspark、pyspark-sql

我有一个数据帧(testdf)，希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。testdf100 Y 120 Y预期结果：(对于预订列不为空/非空)= ""mydf.filter("

浏览 44提问于2018-06-05得票数 0

3回答

吡啶sql查询:用条件计数不同的值

sql、pyspark

我尝试了以下查询，但它不起作用： .agg( countDistinct(col("id_patient

浏览 0提问于2019-01-02得票数 3

回答已采纳

2回答

PySpark中的群比和UDF/ DataFrame在保持DataFrame结构的同时

python、apache-spark、dataframe、pyspark、apache-spark-sql

我对PySpark很陌生，并且在简单的数据处理中苦苦挣扎。产品，添加列来计算算术、几何和调和的收视率，同时维护dataframe中的其余列，这些列在每个产品中都是一致的。例如：g_means = df.groupBy("produc

浏览 2提问于2018-10-28得票数 2

1回答

我是一名Spark新手，正在尝试使用pyspark (Spark 2.2)在非常广泛的特征集(大约1300万行，15000列)上执行过滤和聚合操作。要素集作为地块文件存储在S3驱动器上。有没有办法在Pyspark中加速对大量数据帧的这类操作？我正在使用Jupyter notebooks，希望这些查询在几分钟内完成，而不是几个小时。df_selected_rors, df_feature_store.ROLLOUTRE

浏览 0提问于2018-10-22得票数 3

1回答

在pyspark中聚合One-Hot编码特性

pyspark

从pyspark.ml.feature导入StringIndexer，从pyspark.ml导入管道的OneHotEncoder (1, 'grocery,[1.0])|+---+--------+-------------+-------------+ 我现在想要groupBy' id‘并将'categoryVec’列与一个和聚合在一起，这样我就可以为

浏览 20提问于2018-07-18得票数 4

回答已采纳

1回答

火花数据为零的稀疏向量

scala、apache-spark、apache-spark-mllib

当我试图在scala中组装一个数据格式(一些列包含null值)时，我面临着一个问题。不幸的是，vectorAssembler无法处理null值。我能做的就是替换或填充dataframe的null值，然后创建一个dense向量，但这不是我想要的。编辑:实际上，我不需要稀疏向量中的null，但是它不应该是像0或</e

浏览 0提问于2017-04-05得票数 1

回答已采纳

1回答

解析包含Pyspark中XML字符串的列

python、xml、pyspark、user-defined-functions

现在，我正试图使用Pyspark在Databricks中包含XML字符串的列在dataframe上迭代此函数，并使用返回的数组创建一个新列。我的职能：from pyspark.sql.types import * import xml.etree.ElementTree我已经在一个单独的脚本中使用来自dataframe的一个XML记录对函数进

浏览 6提问于2020-04-10得票数 0

2回答

从一列中仅包含一个唯一值的DataFrame中删除组

python、pandas

“A”是唯一ID列，列“E”包含1或0。我只想保留E列的值包含0和1的组。(我想删除A列为2和4的行，因为这些组分别只包含1和0，只保留A列为1、3、5的行)。做这件事最好的方法是什么？A B C D E F2 1 0.8 0.8 2.2 0 07 2 1.5 1.5 1.7 1 1169

浏览 20提问于2020-09-01得票数 3

回答已采纳

1回答

主成分分析在PySpark中的应用

python、apache-spark、apache-spark-mllib、pca、apache-spark-ml

看着。这些示例似乎只包含Java和Scala。

浏览 2提问于2015-08-03得票数 10

回答已采纳

1回答

余弦相似度的计算

information-retrieval

我试图找出如何计算这两个向量的余弦相似性：B:(1,0,0,1,0,0,0,0,1)任何帮助和暗示都将不胜感激。

浏览 3提问于2020-05-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将两个不同类型的pyspark数据框列相乘(array[double] vs double)，而不需要微风

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，

Parquet文件中groupby的最佳实践

星火DataFrame如何区分不同的VectorUDT对象？

多列密集矢量爆炸柱

PySpark在大型数据集上将DenseVector拆分为单独的列

用电火花将稠密向量转换成数据

如何使用pyspark* collect_list函数检索所有列*

pyspark dataframe“条件应为字符串或列”

不带groupby的计数和非重复计数使用PySpark

吡啶sql查询:用条件计数不同的值

PySpark中的群比和UDF/ DataFrame在保持DataFrame结构的同时

Pyspark中的宽数据帧操作速度太慢

在pyspark中聚合One-Hot编码特性

火花数据为零的稀疏向量

解析包含Pyspark中XML字符串的列

从一列中仅包含一个唯一值的DataFrame中删除组

主成分分析在PySpark中的应用

余弦相似度的计算

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐