腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2941)
视频
沙龙
1
回答
在
pyspark
2.2
或
2.3中,
在
groupby
上
添加
密集
向量
列
python-3.x
、
pyspark
、
pyspark-dataframes
我使用的是
Pyspark
2.2
。[1.5,0,1,0]1 | [1,0,0,2] 2 | [1.5,0,2,0] 需要进行元素方面的
添加
到目前为止,我得到的是: df.
groupBy
('tag').agg(F.sum('features')).show(5,0) 但这给了我一个错误: cannot resolve 'sum(`features
浏览 21
提问于2020-09-10
得票数 0
1
回答
将两个不同类型的
pyspark
数据框
列
相乘(array[double] vs double),而不需要微风
python
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我有相同的问题,问here,但我需要一个解决方案,
在
pyspark
和没有微风。例如,如果我的
pyspark
数据帧如下所示: user | weight | vec"u1" | 0.5 |[4, 8, 12] "u2" | 0.5 | [20, 40, 60]
在
列
权重的类型为double,
列
的类型为ArrayDouble的
浏览 26
提问于2020-01-08
得票数 1
2
回答
IllegalArgumentException:
列
的类型必须为struct<type:tinyint,大小为:int、indices:array<int>、values:array<double>>,
apache-spark
、
pyspark
、
apache-spark-ml
我有一个包含多个分类
列
的数据帧。我正在尝试使用两
列
之间的内置函数来查找菱形统计数据: r = ChiSquareTest.test(df, 'feature1
浏览 1
提问于2020-04-06
得票数 8
回答已采纳
1
回答
Parquet文件中
groupby
的最佳实践
python
、
pyspark
、
parquet
、
dask
我们有一个1.5BM记录分散
在
几个csv文件。为了生成一个count聚合,我们需要对几个
列
进行分组。我们目前的战略是: 读取Parquet文件(Dask
或
pyspark
),并在dataframe的索引上运行
groupby
。对于Parquet文件上高效的
groupby
浏览 2
提问于2017-07-09
得票数 3
1
回答
星火DataFrame如何区分不同的VectorUDT对象?
apache-spark
、
dataframe
、
pyspark
、
apache-spark-mllib
、
apache-spark-ml
我正在尝试理解DataFrame
列
类型。当然,DataFrame不是一个物化的对象,它只是一组Spark的指令,将来要转换成代码。但我认为,这个类型列表代表了
在
执行操作时JVM中可能出现的对象类型。import
pyspark
import
pyspark
.sql.functions as Fd() 四个
向量
值的
列
在
printSchema() (<em
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
多
列
密集
矢量爆炸柱
python
、
apache-spark
、
vector
、
pyspark
、
explode
我有一个有两个
列
的Dataframe:BrandWatchErwaehnungID和word_counts。word_counts
列
是“`CountVectorizer (稀疏
向量
)”的输出。
在
删除空行后,我创建了两个新
列
,一个
列
具有稀疏
向量
的索引,另一个
列
具有它们的值。.withColumnRenamed("_3", "word_indices").withColumnRenamed("_4"
浏览 1
提问于2018-01-31
得票数 1
1
回答
PySpark
在
大型数据集上将DenseVector拆分为单独的
列
python
、
azure
、
apache-spark
、
pyspark
我正在尝试运行一个函数,该函数接受一个
密集
向量
并将其拆分成单独的
列
。def extract(row):df = df.rdd.map(extra
浏览 0
提问于2017-02-03
得票数 0
1
回答
用电火花将稠密
向量
转换成数据
python
、
pandas
、
apache-spark
、
dataframe
我正试图将
密集
向量
转换为dataframe (最好是星火),并附带列名并遇到问题。from
pyspark
.ml.linalg import SparseVector, DenseVector tempDenseVector(row[0]
浏览 0
提问于2018-09-27
得票数 3
回答已采纳
4
回答
如何使用
pyspark
collect_list函数检索所有
列
python
、
pyspark
我有一个
pyspark
2.0.1。我正在尝试按我的数据框分组,并从我的数据框中检索所有字段的值。我发现将给我的国家和名称的属性和名称属性的值,它将给出的
列
标题为collect_list但是对于我的工作,我有大约15
列
的数据帧&我会运行一个循环,每次
在
循环中改变
groupby
字段,需要所有剩余的fields.Can的输出,你能
浏览 6
提问于2017-10-18
得票数 3
1
回答
pyspark
dataframe“条件应为字符串
或
列
”
python
、
dataframe
、
filter
、
pyspark
我一直收到错误“TypeError(”条件应该是字符串
或
列
“)” 我已经尝试更改滤镜以使用col对象。尽管如此,它还是不起作用。import coldisplay(answerthree) 我为变量"answerthree“<em
浏览 21
提问于2019-02-02
得票数 0
回答已采纳
1
回答
不带
groupby
的计数和非重复计数使用
PySpark
python
、
pyspark
、
pyspark-sql
我有一个数据帧(testdf),希望
在
另一
列
(booking/rental)不为null
或
非空(即“”)的
列
(memid)
上
获得计数和非重复计数。testdf100 Y 120 Y预期结果:(对于预订
列
不为空/非空)= ""mydf.filter("
浏览 44
提问于2018-06-05
得票数 0
3
回答
吡啶sql查询:用条件计数不同的值
sql
、
pyspark
我尝试了以下查询,但它不起作用: .agg( countDistinct(col("id_patient
浏览 0
提问于2019-01-02
得票数 3
回答已采纳
2
回答
PySpark
中的群比和UDF/ DataFrame
在
保持DataFrame结构的同时
python
、
apache-spark
、
dataframe
、
pyspark
、
apache-spark-sql
我对
PySpark
很陌生,并且
在
简单的数据处理中苦苦挣扎。产品,
添加
列
来计算算术、几何和调和的收视率,同时维护dataframe中的其余
列
,这些
列
在
每个产品中都是一致的。例如:g_means = df.
groupBy
("produc
浏览 2
提问于2018-10-28
得票数 2
1
回答
Pyspark
中的宽数据帧操作速度太慢
python
、
apache-spark
、
pyspark
我是一名Spark新手,正在尝试使用
pyspark
(Spark
2.2
)
在
非常广泛的特征集(大约1300万行,15000
列
)
上
执行过滤和聚合操作。要素集作为地块文件存储
在
S3驱动器
上
。有没有办法
在
Pyspark
中加速对大量数据帧的这类操作?我正在使用Jupyter notebooks,希望这些查询
在
几分钟内完成,而不是几个小时。df_selected_rors, df_feature_store.ROLLOUTRE
浏览 0
提问于2018-10-22
得票数 3
1
回答
在
pyspark
中聚合One-Hot编码特性
pyspark
从
pyspark
.ml.feature导入StringIndexer,从
pyspark
.ml导入管道的OneHotEncoder (1, 'grocery,[1.0])|+---+--------+-------------+-------------+ 我现在想要
groupBy
' id‘并将'categoryVec’
列
与一个和聚合在一起,这样我就可以为
浏览 20
提问于2018-07-18
得票数 4
回答已采纳
1
回答
火花数据为零的稀疏
向量
scala
、
apache-spark
、
apache-spark-mllib
当我试图
在
scala中组装一个数据格式(一些
列
包含null值)时,我面临着一个问题。不幸的是,vectorAssembler无法处理null值。我能做的就是替换
或
填充dataframe的null值,然后创建一个dense
向量
,但这不是我想要的。编辑:实际
上
,我不需要稀疏
向量
中的null,但是它不应该是像0
或</e
浏览 0
提问于2017-04-05
得票数 1
回答已采纳
1
回答
解析包含
Pyspark
中XML字符串的
列
python
、
xml
、
pyspark
、
user-defined-functions
现在,我正试图使用
Pyspark
在
Databricks中包含XML字符串的
列
在
dataframe
上
迭代此函数,并使用返回的数组创建一个新
列
。我的职能:from
pyspark
.sql.types import * import xml.etree.ElementTree我已经
在
一个单独的脚本中使用来自dataframe的一个XML记录对函数进
浏览 6
提问于2020-04-10
得票数 0
2
回答
从一
列
中仅包含一个唯一值的DataFrame中删除组
python
、
pandas
“A”是唯一ID
列
,
列
“E”包含1
或
0。我只想保留E
列
的值包含0和1的组。(我想删除A列为2和4的行,因为这些组分别只包含1和0,只保留A列为1、3、5的行)。 做这件事最好的方法是什么?A B C D E F2 1 0.8 0.8
2.2
0 07 2 1.5 1.5 1.7 1 1169
浏览 20
提问于2020-09-01
得票数 3
回答已采纳
1
回答
主成分分析
在
PySpark
中的应用
python
、
apache-spark
、
apache-spark-mllib
、
pca
、
apache-spark-ml
看着。这些示例似乎只包含Java和Scala。
浏览 2
提问于2015-08-03
得票数 10
回答已采纳
1
回答
余弦相似度的计算
information-retrieval
我试图找出如何计算这两个
向量
的余弦相似性:B:(1,0,0,1,0,0,0,0,1)任何帮助和暗示都将不胜感激。
浏览 3
提问于2020-05-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
Python之数据聚合与分组运算
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券