前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark按某几列删除dataframe重复行

spark按某几列删除dataframe重复行

作者头像
机器学习和大数据挖掘
发布2019-07-02 09:16:32
2.3K0
发布2019-07-02 09:16:32
举报
文章被收录于专栏:数据挖掘

新建一个 dataframe

代码语言:javascript
复制
val conf = new SparkConf().setAppName("TTyb").setMaster("local")
val sc = new SparkContext(conf)
val spark = new SQLContext(sc)
val dataFrame = spark.createDataFrame(Seq(
  (1, 1, "2", "5"),
  (2, 2, "3", "6"),
  (2, 2, "35", "68"),
  (2, 2, "34", "67"),
  (2, 2, "38", "68"),
  (3, 2, "36", "69"),
  (1, 3, "4", null)
)).toDF("id", "label", "col1", "col2")

想根据 idlable 来删除重复行,即删掉 id=2lable=2 的重复行。利用 distinct 无法删除

代码语言:javascript
复制
dataframe.distinct().show()
+---+-----+----+----+
| id|label|col1|col2|
+---+-----+----+----+
|  1|    1|   2|   5|
|  2|    2|   3|   6|
|  2|    2|  35|  68|
|  2|    2|  34|  67|
|  2|    2|  38|  68|
|  3|    2|  36|  69|
|  1|    3|   4|null|
+---+-----+----+----+

利用 dropDuplicates 可以根据 ID 来删除:

代码语言:javascript
复制
dataFrame.dropDuplicates("id","label").show()
+---+-----+----+----+
| id|label|col1|col2|
+---+-----+----+----+
|  2|    2|   3|   6|
|  1|    1|   2|   5|
|  1|    3|   4|null|
|  3|    2|  36|  69|
+---+-----+----+----+
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-03-05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档