开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >创建一个统计spark数据帧中重复次数的列

问创建一个统计spark数据帧中重复次数的列
EN

Stack Overflow用户

提问于 2018-09-04 22:42:16

回答 2查看 288关注 0票数 1

我有一个700万行长的大型数据帧，我需要添加一个列来计算某个人(由和Integer标识)以前出现过多少次，例如：

| Reg |   randomdata |                   
| 123 | yadayadayada |                 
| 246 | yedayedayeda |          
| 123 | yadeyadeyade |                 
|369  | adayeadayead |                
| 123 | yadyadyadyad |

转到->

| Reg |   randomdata |     count              
| 123 | yadayadayada |          1       
| 246 | yedayedayeda |          1  
| 123 | yadeyadeyade |          2      
| 369 | adayeadayead |          1      
| 123 | yadyadyadyad |          3

我已经做了一个groupBy，以了解每个重复的次数，但我需要在机器学习练习中获得这个计数，以便根据之前发生的次数来获得重复的概率。

CDN&音视频通信出海专场

提供游戏出海、社交娱乐等方案，助力企业抢占出海市场

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-05 02:10:00

下面我们假设随机性可能意味着相同的随机值发生，并使用带有tempview的spark sql，但也可以使用带有select的DF：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window._

case class xyz(k: Int, v: String)
val ds = Seq(
     xyz(1,"917799423934"),
     xyz(2,"019331224595"),
     xyz(3,"8981251522"),
     xyz(3,"8981251522"),
     xyz(4,"8981251522"),
     xyz(1,"8981251522"),
     xyz(1,"uuu4553")).toDS()

 ds.createOrReplaceTempView("XYZ")

spark.sql("""select z.k, z.v, dense_rank() over (partition by z.k order by z.seq) as seq from (select k,v, row_number() over (order by k) as seq from XYZ) z""").show

正在返回：

+---+------------+---+
|  k|           v|seq|
+---+------------+---+
|  1|917799423934|  1|
|  1|  8981251522|  2|
|  1|     uuu4553|  3|
|  2|019331224595|  1|
|  3|  8981251522|  1|
|  3|  8981251522|  2|
|  4|  8981251522|  1|
+---+------------+---+

票数 0

EN

Stack Overflow用户

发布于 2018-09-04 23:56:22

你可以这样做

 def countrds = udf((rds: Seq[String]) => {rds.length})
 val df2 = df1.groupBy(col("Reg")).agg(collect_list(col("randomdata")).alias("rds"))
                    .withColumn("count", countrds(col("rds")))
 df2.select('Reg', 'randomdata', 'count').show()

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52174847

复制

相关文章

react native使用WebView加载本地html部署方案

react nat html android

前言最近自己编写的react native安卓程序准备部署一下，发现调用的webview是本地的html文件，即url的格式是: http://localhost:8081/..这样的，所以打包之

十里桃花舞丶

2018/05/17

2.9K0

爬虫利器：jsDOM

html axios puppeteer url 效率

需求：之前使用node做爬虫的时候，使用puppeteer来模拟浏览器然后抓取信息但是这样的效率和消耗太大了，所以需要一种更为效率的方法：直接使用axios来请求对应的url 然后通过jsDom,渲染成一个虚拟的html然后进行取值废话不多说直接上代码：先安装jsdom npm i jsdom 然后写下面实例化 const jsdom = require("jsdom"); const { JSDOM } = jsdom; const dom = new JSDOM(`<!DOCTYPE html

biaoblog.cn 个人博客

2022/08/11

3130

Javascript文件加载：LABjs和RequireJS

传统上，加载Javascript文件都是使用<script>标签。就像下面这样：　　<script type="text/javascript" src="example.js"></scrip

ruanyf

2018/04/12

1.4K0

Javascript文件加载：LABjs和RequireJS

JavaScript 动态加载脚本和样式

3大点： 1.元素位置 2.动态脚本 3.动态样式一．元素位置 getBoundingClientRect()。这个方法返回一个矩形对象，包含四个属性：left、top、right和bottom。分别表示元素各边与页面上边和左边的距离。 var box = document.getElementById('box');//获取元素 alert(box.getBoundingClientRect().top);//元素上边距离页面上边的距离 alert(box.getBoundingClientRect()

汤高

2018/01/11

1.4K0

Javascript文件加载 ——LABjs和RequireJS

java javascript 编程算法

<script>标签很方便，只要加入网页，浏览器就会读取并运行。但是，它存在一些严重的缺陷。

javascript.shop

2019/09/04

1K0

Javascript文件加载 ——LABjs和RequireJS

iOS加载本地HTML、pdf、doc、excel文件 & HTML字符串与富文本互转

html ios https webview 网络安全

如果你有需求在手机端打开本地html的需求，又觉得使用其他方法麻烦或者不管用的时候，推荐你可以自己写个简单的app进行打开。

公众号iOS逆向

2021/07/05

2K0

HTML加载顺序

html css 网站

完成了若干个基于WEB的项目, 也了解了从前端的js,css,html到后端python/php等, 二者如何交互, 最终浏览器如何执行, 这些在心里也已经很明确了. 不过一个问题一直萦绕在心中,那就是:

用户7657330

2020/08/14

1.9K0

WebGL加载本地模型

大部分的webgl框架，比如threejs和babylon等，都可以加载obj和gltf模型。我们的引擎，基于three封装，同样有加载模型的loader，因此加载obj和gltf模型也是很简单就可以实现的。

用户3158888

2022/05/11

1.9K0

【JS 逆向百例】网洛者反爬练习平台第六题：JS 加密，环境模拟检测

python 数据挖掘

本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关，若有侵权，请联系我立即删除！

K哥爬虫

2021/12/28

8030

【JS 逆向百例】网洛者反爬练习平台第六题：JS 加密，环境模拟检测

javascript本地分页

注意：本地分页适用于数据量小的地方，如果数据量大，不建议使用本地分页 var iTable = document.getElementById("iTable"); var rows = iTable.rows.length; var pageSize = 3;//每页显示条数 var pageNum = 0;//总页数 var current = 1; if(rows/pageSize > parseInt(rows/pageSize)){ pageNum = parseInt(rows/pa

Petrochor

2022/06/07

3400

HTML中传递和引用JavaScript变量

javascript html

http://ivantian2008.blog.51cto.com/622133/1127456

明哥的运维笔记

2019/01/30

5.6K0

WebView浏览本地html

index.html放在Assets文件夹下，供WebChromeClient调用

提莫队长

2019/02/21

1.4K0

Gravatar 头像无法加载

https 网络安全 wordpress 网站建设腾讯云开发者社区

由于众所周知的原因，头像服务器多数都无法正常访问，不管是http还是https。为了解决头像问题有两个办法：

obaby

2023/02/22

1.6K0

JavaScript HTML DOM - 改变 HTML

javascript html

今天的日期是： Mon Jul 19 2021 15:52:44 GMT+0800 (中国标准时间)

陈不成i

2021/07/20

4.3K0

Html5 学习系列（六）Html5本地存储和本地数据库

数据库 html5

本文介绍了如何使用HTML5中的WebSQL API来实现客户端数据库的访问，并通过一个具体的应用场景示例展示了如何使用该API来实现客户端的数据库操作。同时，本文还介绍了WebSQL API的常见用法以及其相关的兼容性情况。

老马

2018/01/05

2.4K0

Html5 学习系列（六）Html5本地存储和本地数据库

JavaScript加载速度

解决JS加载速度慢的问题传统形式加载js文件 <script type="text/javascript" src="js调用地址"></script> 高速加载js文件 <script type="text/javascript"> /* 请不要删除这段代码，因为这段代码起到了加速JS加载作用 */ document.write("<scr"+"ipt src=\"你的js调用地址"></sc"+"ript>"); </script>

闲花手札

2021/08/24

7420

go : gin 加载html

本文介绍使用 LoadHTMLGlob() or LoadHTMLFiles() 加载html资源

IT工作者

2022/07/25

1.5K0

利用特殊协议加载本地文件，绕过 HTML5 沙箱，打开弹窗诸事

html5 安全网络安全

原文链接：https://www.brokenbrowser.com/abusing-of-protocols/ 原作者：Manuel Caballero 译：Holic (知道创宇404安全实验室) 在 10 月 25 日，研究员 @MSEdgeDev twitter 了一个链接，成功引起了我的注意，因为我点击那个链接的时候（在 Chrome 上），Windows 应用商店会自动打开。这对你来说也许不足为奇，但它足以让我感到惊讶。在我印象中，Chrome 有这样一个健康的习惯，在打开外部程序之前询问用户

Seebug漏洞平台

2018/03/30

2.5K0

UILabel加载html文本

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/53163142

用户1451823

2018/09/13

3K0

点击加载更多

相似问题

如何用JSDOM加载本地JavaScript文件？

20

NPM和jsdom错误加载

13

无法加载脚本HTML和javascript

26

使用jsdom和nodeJS加载nodeJS

11

无法将本地jquery.js加载到node.js (NPM jsdom)

15

活动推荐

体验智能媒资降冷，云点播优惠不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例