腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
从
每个
行
的
数组
中
获取
不同
的
计数
、
、
、
我正在
使用
pyspark
dataframe
从
每个
行
的
数组
中
查找
不同
的
计数
:输入: col1 1,1,1 1,2,1,212 output:3 please help me how do i achieve this using python
浏览 10
提问于2020-02-28
得票数 1
回答已采纳
3
回答
pyspark
:
获取
dataframe
的
每一列
中
的
唯一项
、
我有一个包含一百万行和560列
的
spark数据帧。我需要找到dataframe
的
每一列
中
唯一项
的
计数
。我已经编写了以下代码来实现这一点,但它被卡住了,并且执行起来花费了太多
的
时间: var=count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0]).count()) cat_col包
浏览 9
提问于2016-11-29
得票数 0
2
回答
检测
数组
中
不同
字符串
的
数目
、
、
基本上需要一个计算
数组
中
不同
值数量
的
函数和另一个函数来给出
数组
中
每个
不同
值
的
实际
计数
。我有一个Array,它包含不断变化
的
值:我想做一个列表视图,
每个
部分应该包含
不同
的
类别,例如:- Element 1- ...因此,我需要数字3作为我
的
节
浏览 4
提问于2012-08-08
得票数 0
回答已采纳
1
回答
火花放电数据群
计数
中
的
并行化
、
、
我在一个名为part-0001、part-0002等
的
Linux机器上
的
一个目录中有大约200个文件。
每个
行都有大约100万
行
,具有相同
的
列(称为'a','b',等等)。让这对'a','b‘成为每一
行
的
键(有许多重复
的
)。 同时,我已经建立了一个Spark2.2.0集群,其中包含一个主服务器和两个
从
服务器,共有42个可用内核。然后,我
使用
P
浏览 3
提问于2017-10-11
得票数 3
1
回答
Oracle SQL :
从
表1
获取
不同
的
列值,
从
表2
获取
每个
值
的
计数
、
、
假设表1有名为"class“
的
列。
获取
"class“所有
不同
值
的
查询:现在有表2,它有3
行
,类"a",2
行
,类"b“,5
行
,类"c”。什么应该是嵌套查询,可以查询表1,
获取
"class“列
的
所有
不同
值,即本例
中
的</e
浏览 2
提问于2014-03-28
得票数 0
1
回答
PySpark
2.1.1 groupby + approx_count_distinct
计数
为0
、
我
使用
的
是Spark2.1.1 (
pyspark
),在一个大约有14亿
行
的
DataFrame上执行groupby,然后进行approx_count_distinct聚合。groupby操作产生大约600万个要执行approx_count_distinct操作
的
组。这些组
的
预期
不同
计数
范围
从
个位数到数百万。下面是我
使用
的
代码片段,其中'item_id‘列包含项目的ID,
浏览 0
提问于2017-10-05
得票数 0
8
回答
使用
pyspark
获取
列
的
数据类型
、
、
我们正在读取来自MongoDB Collection
的
数据。Collection列有两个
不同
的
值(例如:(bson.Int64,int) (int,float) )。我正在尝试
使用
pyspark
获取
一个数据类型。1238 56.22345566677777789 21 实际上,我们没有为mongo集合<
浏览 42
提问于2017-07-11
得票数 62
回答已采纳
1
回答
将
每个
二元语法
从
列表格式移动到Pandas或
Pyspark
数据帧
中
的
新
行
、
、
、
、
我有pandas和
pyspark
数据帧,每天每行都有二元组
的
列表。我想打破列表,并将
每个
二元组合移动到一
行
,
计数
按降序排列。 如下所示是我拥有的数据帧。我已经按event_dt进行了排序。在“merged”列
中
,显示了二元语法
的
列表。例如,“漂亮
的
相遇”和“相遇后付费”是两个二元语法。双连词
的
列表每天都在继续... ? 现在,我想要将
每个
biagram移动到同一日期
的
新
行
。
浏览 40
提问于2020-10-23
得票数 0
回答已采纳
1
回答
在
pyspark
的
数组
列中
使用
SequenceMatcher
、
、
我有一个数据帧,在
pyspark
dataframe中有一个
数组
列‘test’,它有3
行
或更多行。测试-‘hello’,‘地狱’,‘Help’,‘helper’‘sequence’,‘seque’ 如何
使用
difflib.sequencematcher遍历
行
的
每个
元素,如果两个元素
的
比率小于90%,则在新列
中
添加两个元素,说明‘test_ratio,如果它大于,则只保留两个元素
中
的
一个元素?示例:<
浏览 11
提问于2021-07-18
得票数 0
回答已采纳
1
回答
星火
的
RDD.combineByKey()是否保持先前排序
的
DataFrame
的
顺序?
、
、
、
我在
PySpark
中
这样做过:
使用
整理
每个
资产
的
所有数据,
使用
资产
的
序列号作为密钥。问题:,我能确定
每个
资产
的
数据仍然会在最后一步
的
RDD
中
按时间顺序排
浏览 1
提问于2017-04-26
得票数 0
回答已采纳
1
回答
在
Pyspark
中
查找相关
的
文档名称
、
、
我有一个包含两列(id,name)
的
数据框。名称列具有相关
的
名称。例如,术语,相关术语,相关
行
,
行
。 我想在
不同
的
行
中找到相似的名字。我已经尝试了余弦相似度,但无法实现这一点。我已经
使用
pyspark
计算了TF-IDF。寻找
使用
pyspark
在
不同
行
中
获取
相关名称
的
方法。
浏览 11
提问于2018-02-23
得票数 0
3
回答
在单个列中计算跨列表
的
值
的
实例
、
、
、
我有一个
PySpark
dataframe,其中1列由字符串列表组成。我想在所有
行
中计算
每个
字符串列表
中
每个
元素
的
实例数。,并从单个庞大列表
中
构建一个
计数
器。在
PySpark
中
是否有一种有效
的
方法来做到这一点?正确
的
输出将是一个collections.Counter()对象,其中填充了所有列中所有列表
中
每个
项
的
出现数,也就是说,
浏览 6
提问于2020-05-08
得票数 1
回答已采纳
2
回答
单表
中
的
多行
计数
、
、
如何
使用
db2查询
从
单个表
中
获取
多个记录
的
计数
?假设我想
使用
以下方法获得1条记录
的
计数
:我需要
的
是对
每个
记录在
不同
的
行
中
对同一表
中
的
多个记录进行
计数<
浏览 4
提问于2015-02-26
得票数 1
回答已采纳
1
回答
VBA,
获取
每个
不同
数组
值
的
不同
计数
。
、
在MS Word中
使用
VBA。我目前在ArrayList中有一组数字(请推荐一个更好
的
选项来存储一个值列表),我希望得到
每个
值
的
不同
计数
(所以10 =1和10.5 = 4)。我试着过滤ArrayList,但我认为它并不能与“包含”
的
值完全匹配,所以过滤
数组
和
计数
对我不起作用(所有返回
的
值)。我尝试了我找到
的
其他解决方案,但没能让它起作用。任何人都会推荐解决方案。
浏览 1
提问于2021-06-19
得票数 0
回答已采纳
1
回答
平面文本文件
中
的
分布式dask矩阵
、
、
、
、
我正在尝试将矩阵
的
平面文本文件(以制表符分隔)表示到dask
数组
中
,
使用
distributed将
数组
的
块分布到集群
中
。(旁白:这与
PySpark
的
方法没有什么
不同
) 但是,我不清楚如何
使用
可用
的
工具将文本文件解析成矩阵结构。在
PySpark
中
,我可以
使用
一个简单
的
map来完成这个任务,该map可以将空格上<em
浏览 1
提问于2016-06-03
得票数 1
回答已采纳
1
回答
如何计算php
数组
中
的
嵌套对象
、
、
、
我有这样
的
数据: 0: [ 1: {fruits: "orange", pricefruits: "avocado", price: "18000"}, ],我想问如何知道第二个数据
的
长度,我已经尝试<
浏览 1
提问于2020-12-17
得票数 0
回答已采纳
2
回答
从
字符串
数组
中
获取
每个
不同
单词
的
计数
、
我有一个字符串
数组
:我想要从所有字符串
中
获得
每个
单词
的
计数
,比如stackoverflow : 2 我想
使用
LINQ并且只
使用
一条语句来获得
浏览 0
提问于2016-12-06
得票数 0
1
回答
pyspark
.sql.functions -
计数
以考虑空值:
、
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在计算列
中
不同
元素
的
数量时考虑null值。| accounts| null|+---+------+-----------+------+ 现在,如果我运行以下代码来计算
每个
列
中
不同
值
的
数量
从
我<
浏览 12
提问于2022-06-07
得票数 0
2
回答
Pyspark
:滚动窗口中
的
聚合模式(最常见)值
、
、
、
、
我有如下所示
的
数据。我想按device分组,在
每个
组内按start_time排序。然后,对于组
中
的
每一
行
,
从
其前面3
行
的
窗口(包括其自身)
中
获得最频繁发生
的
站点。Python| 6| null| station_2|由于
Pyspark
没有mode()函数
浏览 1
提问于2022-01-13
得票数 1
回答已采纳
1
回答
如何
使用
pySpark
将items
行
中
的
数组
列单元格转换为
计数
?
、
、
、
我有一个在一列中有多个值
的
数据集,并且我想计算
每个
值在数据集
的
所有
行
中出现
的
次数。+ 1 ++ val3 + 2 ++---------+-------+ 代码在
pySpark
中
我
使用
了split函数来
获取
一个值
数组
。我有一个包含
数组
列
的
数据集,但我不知道如何正确<e
浏览 15
提问于2019-10-06
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券