腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
来自
PySpark
的
每个
密钥
的
Distinct
列表
、
、
、
我有一个带有键值对
的
RDD。我只想要一份明确
的
钥匙清单。我将分享代码和示例。提前谢谢你!(u'11847272', 10)], [(u'af1lowprm1704', 5), (u'am1prm17', 2), (u'af1highprm1704', 2)]]rdd4.
distinct
().keys() [
浏览 3
提问于2017-08-16
得票数 2
回答已采纳
1
回答
基于另一个带有json列
的
数据帧创建spark Dataframe
、
、
、
我有一个Spark Dataframe (json_df),我需要基于嵌套
的
json创建另一个Dataframe: 这是我当前
的
数据帧: ? 我知道我可以手动这样做:final_df = json_df.select( col("Body.EquipmentId"),..... ),但我想以一种通用
的
方式这样做。注意:对于这个特定
的
DF,json记录具有相同
的
结构。 有什么想法吗? 谢谢!
浏览 12
提问于2021-09-09
得票数 0
1
回答
使用
PySpark
统计
每个
窗口
的
用户数
、
、
、
、
其中一个关键字是用户
的
email。 3 ---->
浏览 2
提问于2018-11-21
得票数 0
1
回答
如何在
Pyspark
中从MapType列中获取键和值
、
、
、
我尝试在
PySpark
中复制这个问题
的
解决方案(Spark < 2.3,所以没有map_keys):下面的是我
的
代码(与上面链接
的
问题
的
df相同): .select(F.explode("alpha"))\ .
distinct
()\ df.select
浏览 44
提问于2020-05-20
得票数 0
回答已采纳
1
回答
星火
的
RDD.combineByKey()是否保持先前排序
的
DataFrame
的
顺序?
、
、
、
我在
PySpark
中这样做过: 问题:,我能确定
每个
资产
的
数据仍然会在最后一步
的
RDD中按时间顺序排序吗?时间顺序对我来说是至关重要
的
(我需要在
每个
资产
的
移动时间窗口上计算统计数据)。当RDD.combineByKey
浏览 1
提问于2017-04-26
得票数 0
回答已采纳
1
回答
如何用
pyspark
图形框架pregel API实现循环检测
、
、
、
、
我正在尝试用
Pyspark
和图形框架实现
来自
Rocha & Thatte ()和pregel包装器
的
算法。在这里,我被用于消息聚合
的
正确语法卡住了。这一想法是向前推进
的
: ...In每经过一次,G
的
每个
活动顶点都会向其外部邻居发送一组顶点序列,如下所述。在第一遍中,
每个
顶点v向它
的
所有外部邻居发送消息(v)。在随后
的
迭代中,
每个
活动顶点v将v附加到它在上一次迭代中接收到
的
浏览 0
提问于2019-11-16
得票数 3
回答已采纳
2
回答
从Spark RDD中删除重复
的
、
、
、
我在我
的
文件中收集了重复
的
记录作为字典
列表
。下面是我
的
sampleRDD变量内容,它是一个
pyspark
.rdd.RDD对象:,{"A": 111, "B": 222, "C":
浏览 1
提问于2016-01-18
得票数 0
1
回答
PySpark
:如何从两列中计算不同值
的
数目?
我有一个有两个列
的
DataFrame,id1, id2,我想要得到
的
是计数,这两个列
的
不同值
的
数量。本质上这是count(set(id1+id2))。 我怎样才能用
PySpark
做到这一点呢?请注意,,这不是一个重复
的
,因为我希望
PySpark
计算count()。当然,获得两个
列表
id1_
distinct
和id2_
distinct
并将它们放到set()中是可能
的
,但在我看来,在处理大数据时,这并不是
浏览 11
提问于2021-05-16
得票数 0
回答已采纳
1
回答
pyspark
.sql.functions -计数以考虑空值:
、
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_
distinct
()函数在计算列中不同元素
的
数量时考虑null值。| accounts| null|+---+------+-----------+------+ 现在,如果我运行以下代码来计算
每个
列中不同值
的
数量从我
的
研究来看,这似乎与count_
distinct
浏览 12
提问于2022-06-07
得票数 0
1
回答
如何在
pyspark
中将字符串
的
RDD映射到Dataframe
的
列
、
我有一个字符串
的
RDD,它存储数据帧
的
列名。我想将这个RDD
的
每个
值映射到它引用
的
列
的
计数。下面是我
的
代码:mis = rdd.map(lambda x: df.select(x).
distinct
.count()) mi
浏览 7
提问于2016-08-16
得票数 0
1
回答
左反团员
、
、
、
我有一个dataframe,它有两个列a和b,其中b列中
的
值是a列中值
的
a子集。,其中anti_b列中
的
值是
来自
a列
的
任何值,这样a!().crossJoin(df.select('a').withColumnRenamed('a','anti_b').
distinct
()).where(
pyspark
.sql.functions.col('b').alias('bs')
浏览 2
提问于2019-11-18
得票数 0
1
回答
基于值过滤和在spark数据帧中创建
列表
、
、
、
我是spark
的
新手,我正在尝试使用
Pyspark
来做以下事情: 我有一个包含3列
的
数据帧,"id", "number1", "number2"。对于"id"
的
每个
值,我都有多个行,我想做
的
是创建一个元组
列表
,其中包含与
每个
id对应
的
所有行。2个
列表
: [(1, 1), (2, 2)] 和 [(3, 3), (4, 4)] 我不知道该怎
浏览 15
提问于2021-01-22
得票数 0
回答已采纳
3
回答
如何在
PySpark
中执行groupby并查找列
的
唯一项
、
、
我有一个
pySpark
数据,我想按一个列分组,然后在另一个列中为
每个
组找到唯一
的
项。在熊猫身上我可以做,我也想对我
的
火花数据做同样
的
。), .alias('count_B') .show()) 但我找不到一些功能来找到小组中独特
的
浏览 0
提问于2019-06-19
得票数 5
回答已采纳
2
回答
如何从
PySpark
中
的
2列中获得一行序列字符串?
、
、
、
、
我有以下数据结构:列"s“和"d”表示"x“列中对象
的
转换。我想要做
的
是获取"x“列中
的
每个
对象
的
转换字符串。例如,“新”栏如下:有使用
PySpark
的
好方法吗?我使用
PySpark
尝试了以下udf代码,但它不起作用:from
pyspark
.sql.functions imp
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
1
回答
如何在mongodb中从嵌套对象中获取键
我正在进行从mongodb到mysql
的
迁移。我在一个集合中有一个子文档,我需要使用子文档来查找数据。return null; }, /*reducer/ }) 我需要activeListings
的
输出
浏览 15
提问于2016-07-25
得票数 2
1
回答
列
的
PySpark
非重复计数
、
、
、
、
我有一个
PySpark
DataFrame,如下所示: +------+-----------++------+-----------+|B |2020-06-20 ||D |2020-06-21 | +------+-----------+ 我想检索
每个
不同,因为它将DF拆分成时间窗口,并获得
每个
时间窗口
的
不同计数,如下所示: +-----------+-------
浏览 21
提问于2020-08-04
得票数 0
回答已采纳
1
回答
在
pyspark
的
数组列中使用SequenceMatcher
、
、
我有一个数据帧,在
pyspark
dataframe中有一个数组列‘test’,它有3行或更多行。测试-‘hello’,‘地狱’,‘Help’,‘helper’‘sequence’,‘seque’ 如何使用difflib.sequencematcher遍历行
的
每个
元素,如果两个元素
的
比率小于90%,则在新列中添加两个元素,说明‘test_ratio,如果它大于,则只保留两个元素中
的
一个元素?基本上,我希望在数组中保持不同
的
元素具有小于90%
的
相似指数。
浏览 11
提问于2021-07-18
得票数 0
回答已采纳
1
回答
来自
pyspark
的
snowflake无密码登录
、
、
、
我是snowflake
的
新手。我正在创建一个ETL作业,我们需要访问snowflake数据库。 我试着从两个地方连接到雪花。一个
来自
使用shell脚本
的
ec2实例,另一个
来自
aws glue中
的
pyspark
。当我尝试从shell脚本连接时,我将密码保存在配置文件中,而当我尝试从
pyspark
连接时,我必须提供我
的
密码,如下所示 sfOptions ={ "sfURL“:'xxx',"sfAccount”:
浏览 7
提问于2019-02-02
得票数 1
回答已采纳
3
回答
如何从RDD[
PYSPARK
]中删除重复
的
值
、
、
输出应如下所示:1 y2 y在
pyspark
中工作时,输出应该是如下所示
的
键值对
列表
:我想知道
pyspark
中是否有相同
的
函数。
浏览 4
提问于2014-09-18
得票数 14
回答已采纳
1
回答
将数据文件
的
多行合并到一个记录中
、
、
我需要将
PySpark
DataFrame中
的
所有行合并到一个
列表
中,然后添加一个附加属性,以批量发送给API。如下所示,df中
的
json看起来就像 {“event_type”:“单击”,“visitor_platform”:“移动”,"visitor_country":"CA","mp_os":"Android","user_properties":{"
distinct
_id":12
浏览 1
提问于2019-09-23
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券