前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Java8 Stream groupingBy对List进行分组

Java8 Stream groupingBy对List进行分组

作者头像
全栈程序员站长
发布于 2022-09-24 03:22:29
发布于 2022-09-24 03:22:29
4K00
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

提到Group By,首先想到的往往是sql中的group by操作,对搜索结果进行分组。其实Java8 Streams API中的Collector也支持流中的数据进行分组和分区操作,本片文章讲简单介绍一下,如何使用groupingBy 和 partitioningBy来对流中的元素进行分组和分区。

  • groupingBy

首先看一下Java8之前如果想对一个List做分组操作,我们需要如下代码操作:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@Test
public void groupListBeforeJava8() {
    Map<String, List<Employee>> result = new HashMap<>();
    for (Employee e : employees) {
        String city = e.getCity();
        List<Employee> empsInCity = result.get(city);
        if (empsInCity == null) {
            empsInCity = new ArrayList<>();
            result.put(city, empsInCity);
        }
        empsInCity.add(e);
    }
    System.out.println(result);
    assertEquals(result.get("London").size(), 2);
}

而如果使用Java8中Stream的groupingBy分组器,就可以这样操作:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,按城市分组list
 */
@Test
public void groupingByTest() {
    Map<String, List<Employee>> employeesByCity =
            employees.stream().collect(Collectors.groupingBy(Employee::getCity));
    System.out.println(employeesByCity);
    assertEquals(employeesByCity.get("London").size(), 2);
}

上面是groupingBy分组器最常见的一个用法,下面简单介绍一下其他用法:

  • 统计每个分组的count
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,按城市分组list统计count
 */
@Test
public void groupingByCountTest() {
    Map<String, Long> employeesByCity =
            employees.stream().collect(Collectors.groupingBy(Employee::getCity, Collectors.counting()));
    System.out.println(employeesByCity);
    assertEquals(employeesByCity.get("London").longValue(), 2L);
}
  • 统计分组平均值
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,按城市分组list并计算分组销售平均值
 */
@Test
public void groupingByAverageTest() {
    Map<String, Double> employeesByCity =
            employees.stream().collect(Collectors.groupingBy(Employee::getCity, Collectors.averagingInt(Employee::getSales)));
    System.out.println(employeesByCity);
    assertEquals(employeesByCity.get("London").intValue(), 175);
}
  • 统计分组总值
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,按城市分组list并计算分组销售总值
 */
@Test
public void groupingBySumTest() {
    Map<String, Long> employeesByCity =
            employees.stream().collect(Collectors.groupingBy(Employee::getCity, Collectors.summingLong(Employee::getSales)));

    //对Map按照分组销售总值逆序排序
    Map<String, Long> finalMap = new LinkedHashMap<>();
    employeesByCity.entrySet().stream()
            .sorted(Map.Entry.<String, Long>comparingByValue()
                    .reversed()).forEachOrdered(e -> finalMap.put(e.getKey(), e.getValue()));

    System.out.println(finalMap);
    assertEquals(finalMap.get("London").longValue(), 350);
}
  • Join分组List
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 通过type分组list,通过join操作连接分组list
 */
@Test
public void groupingByConvertResultTest(){
    List<BlogPost> blogPostList = Lists.newArrayList();
    blogPostList.add(new BlogPost("post1", "zhuoli", 1, 30));
    blogPostList.add(new BlogPost("post2", "zhuoli", 1, 40));
    blogPostList.add(new BlogPost("post3", "zhuoli", 2, 15));
    blogPostList.add(new BlogPost("post4", "zhuoli", 3, 33));
    blogPostList.add(new BlogPost("post5", "Alice", 1, 99));
    blogPostList.add(new BlogPost("post6", "Michael", 3, 65));

    Map<Integer, String> postsPerType = blogPostList.stream()
            .collect(Collectors.groupingBy(BlogPost::getType,
                    Collectors.mapping(BlogPost::getTitle, Collectors.joining(", ", "Post titles: [", "]"))));
    System.out.println(postsPerType);
}
  • 转换分组结果List -> List
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,按城市分组list,将List转化为name的List
 */
@Test
public void groupingByCityMapList(){
    Map<String, List<String>> namesByCity =
            employees.stream().collect(Collectors.groupingBy(Employee::getCity, Collectors.mapping(Employee::getName, Collectors.toList())));
    System.out.println(namesByCity);
    assertThat(namesByCity.get("London"), contains("Alice", "Bob"));
}
  • 转换分组结果List -> Set
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,按城市分组list,将List转化为name的Set
 */
@Test
public void groupingByCityMapListToSet(){
    Map<String, Set<String>> namesByCity =
            employees.stream().collect(Collectors.groupingBy(Employee::getCity, Collectors.mapping(Employee::getName, Collectors.toSet())));
    System.out.println(namesByCity);
    assertThat(namesByCity.get("London"), containsInAnyOrder("Alice", "Bob"));
}
  • 使用对象分组List
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用java8 stream groupingBy操作,通过Object对象的成员分组List
 */
@Test
public void groupingByObjectTest(){
    List<BlogPost> blogPostList = Lists.newArrayList();
    blogPostList.add(new BlogPost("post1", "zhuoli", 1, 30));
    blogPostList.add(new BlogPost("post2", "zhuoli", 1, 40));
    blogPostList.add(new BlogPost("post3", "zhuoli", 2, 15));
    blogPostList.add(new BlogPost("post4", "zhuoli", 3, 33));
    blogPostList.add(new BlogPost("post5", "Alice", 1, 99));
    blogPostList.add(new BlogPost("post6", "Michael", 3, 65));

    Map<Tuple, List<BlogPost>> postsPerTypeAndAuthor = blogPostList.stream()
            .collect(Collectors.groupingBy(post -> new Tuple(post.getAuthor(), post.getType())));

    System.out.println(postsPerTypeAndAuthor);
}
  • 使用两个成员分组List
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 通过author和type分组list
 */
@Test
public void groupingByMultiItemTest(){
    List<BlogPost> blogPostList = Lists.newArrayList();
    blogPostList.add(new BlogPost("post1", "zhuoli", 1, 30));
    blogPostList.add(new BlogPost("post2", "zhuoli", 1, 40));
    blogPostList.add(new BlogPost("post3", "zhuoli", 2, 15));
    blogPostList.add(new BlogPost("post4", "zhuoli", 3, 33));
    blogPostList.add(new BlogPost("post5", "Alice", 1, 99));
    blogPostList.add(new BlogPost("post6", "Michael", 3, 65));

    Map<String, Map<Integer, List<BlogPost>>> map = blogPostList.stream()
            .collect(Collectors.groupingBy(BlogPost::getAuthor, Collectors.groupingBy(BlogPost::getType)));
    System.out.println(map);
}
  • 自定义DistinctBy对分组结果去重

使用groupingBy源于工作的一个需求,存在如下数据结构

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@Data
@AllArgsConstructor
public class TestData {
    private Integer scene;
    private Integer placement;
    private Long bid;
}

对TestData的List分组,统计每个sene已被占用的placement,我当时直接使用groupIngBy进行分组,得到了一个Map<Integer, List<Integer>的map,看似完成了目标需求,但当我审查结果的时候,发现List中存在重复现象。比如List<TestData>中存在多个Scene为1,placement也为1的元素,目标Map中key为1的value List中就会存在多个1,而实际上我们只需要一个1就能说明placement 1已经被占用了,所以我又希望通过distinct进行去重。但是Stream的distinct只能根据元素去重,并不能根据元素的某个成员去重,即distinctBy操作。经过一番折腾,最终实现了功能,看一下示例代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public class DistinctByKey {
    @Test
    public void distinctByKeyTest() {
        TestData testData1 = new TestData(1, 1, 100L);
        TestData testData2 = new TestData(1, 2, 1000L);
        TestData testData3 = new TestData(1, 3, 100L);
        TestData testData4 = new TestData(1, 1, 80L);

        TestData testData5 = new TestData(2, 1, 1600L);
        TestData testData6 = new TestData(2, 2, 1030L);
        TestData testData7 = new TestData(2, 2, 1001L);
        TestData testData8 = new TestData(2, 2, 1500L);

        TestData testData9 = new TestData(3, 5, 1500L);

        List<TestData> testDataList = Stream.of(testData1, testData2, testData3, testData4, testData5, testData6, testData7, testData8, testData9).collect(Collectors.toList());

        /*直接按照placement去重,scene为2的placement为1和2的元素被去掉*/
        List<TestData> distinctBykeyList = testDataList.stream().filter(distinctByKey(TestData::getPlacement)).collect(Collectors.toList());
        System.out.println(distinctBykeyList);

        Map<Integer, List<Integer>> resultMap = testDataList.stream().collect(Collectors.groupingBy(TestData::getScene)).entrySet().stream()
                .collect(Collectors.toMap(Map.Entry::getKey,
                        entry -> entry.getValue().stream().filter(distinctByKey(TestData::getPlacement)).map(TestData::getPlacement).collect(Collectors.toList())));
        System.out.println(resultMap);
    }

    private static <T> Predicate<T> distinctByKey(Function<? super T, ?> keyExtractor) {
        Set<Object> seen = ConcurrentHashMap.newKeySet();
        return t -> seen.add(keyExtractor.apply(t));
    }
}

其实Stream的distinct方法,也是filter的一个特别实现。上述示例中distinctByKey也是通过filter,实现的,不多说,看一下示例代码就可以看明白。

示例代码:卓立 – 码云 – groupingBy操作

参考链接:

  1. Java 8 Streams API:对Stream分组和分区
  2. Java 8 – Stream Collectors groupingBy examples

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/171242.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
(数据科学学习手札53)Python中tqdm模块的用法
  tqdm是Python中专门用于进度条美化的模块,通过在非while的循环体内嵌入tqdm,可以得到一个能更好展现程序运行过程的提示进度条,本文就将针对tqdm的基本用法进行介绍。
Feffery
2019/03/05
2K0
python进度条显示-tqmd模块
安装 anaconda 是自动集成的 如果导入不存在,直接pip pip install tqdm 参数 #参数介绍 iterable=None, desc=None, 传入str类型,作为进度条标题(类似于说明) total=None, 预期的迭代次数 leave=True, file=None, ncols=None, 可以自定义进度条的总长度 mininterval=0.1, 最小的更新间隔 maxinterval=10.0, 最大更新间隔 miniters=None,
诡途
2020/10/16
1.7K0
python进度条显示-tqmd模块
Python爬虫有用的库:tqdm
练习爬虫的小伙伴,在爬取数据比较多的时候,有时候等候的时间比较久一点,因为不知道具体的进度,可能会感到一丝丝无聊
远方的星
2021/08/11
9110
Python爬虫有用的库:tqdm
(数据科学学习手札91)在Python中妥善使用进度条
在日常运行程序的过程中常常涉及到循环迭代过程,对于执行时间很短的程序来说倒无所谓,但对于运行过程有明显耗时的涉及循环迭代的程序,为其加上进度条(progress bar),是帮助我们监测代码执行进度以及处理中间异常错误非常实用的技巧。
Feffery
2020/08/02
1.7K0
30个数据科学工作中必备的Python包!
来源丨数据STUDIO 在本文中,云朵君将介绍一些非常独特的并且好用的 Python 包,它们可以在许多方面帮助你构建数据的工作流。 Python 可以说是最容易入门的编程语言,在numpy,scipy等基础包的帮助下,对于数据的处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展,开发两个各种 Python 包来帮助数据人员的工作。 1、Knockknock Knockknock是一个简单的Python包,它会在机器学习模型训练结束
张俊红
2022/08/26
1.3K0
30个数据科学工作中必备的Python包!
为你的命令行工具添加牛逼哄哄的进度条
•自己使用time和sys模块结合循环实现•PyPrind[1] 526 star, 许久不更新了•python-progressbar[2] 353 star, 许久不更新了•progress[3] 850 star, 最后一次更新12个月前•tqdm[4] 14.8k star, 截止写文档还在更新•alive_progress[5] 610 star, 持续更新中•rich[6] 7k star, 持续更新中•rich并不单单局限于进度条,这是一个功能强大的命令行辅助,官方介绍: Rich is a Python library for rich text and beautiful formatting in the terminal•click_spinner[7] 157 star, 3个月前最后一次更新
追马
2020/07/03
1.5K0
【RAG】知识库搭建-文档预处理-数据清洗:基于异步的AI文本批处理系统实践
在构建企业级知识库和RAG(检索增强生成)系统时,文档预处理和数据清洗是至关重要的环节。原始文档往往存在格式不统一、内容冗余、质量参差不齐等问题,这些问题会直接影响到向量数据库的检索质量和后续AI模型的表现。为了解决这个问题,我开发了一个基于Python的异步文本批处理系统。通过这个系统的处理,我们可以显著提升知识库的质量,为后续的向量检索和AI应用打下坚实的基础。
訾博ZiBo
2025/03/26
1740
(数据科学学习手札69)详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes
Feffery
2019/09/06
5.1K0
(数据科学学习手札69)详解pandas中的map、apply、applymap、groupby、agg
python的Tqdm模块
Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。
狼啸风云
2019/09/19
4.5K0
最近发现的4个Python命令行可视化库,太酷了!
分别是Bashplotlib、tqdm、PrettyTable、Colorama。
小F
2021/06/25
1.1K0
最近发现的4个Python命令行可视化库,太酷了!
python实现进度条功能
最近需要用python写一个小脚本"实现进度条功能",用到了一些小知识,赶紧抽空记录一下。不深但是常用。
测试加
2022/06/21
1.4K0
python实现进度条功能
Python - 进度条神器 tqdm 用法
程序运行过程中进度条显示特别重要,Python中使用tqdm库作为进度条操作工具,本文简要介绍tqdm常用功能。 背景 tqdm源自阿拉伯语 taqaddum,意思是进程( “progress”); 也是西班牙语中 “I love you so much” (te quiero demasiado)的缩写(这个是碰了巧了) 该模块的作用就是通过装饰tqdm(iterable)任何可迭代的对象,使代码中的循环(loop)在运行过程中为用户展示进度条。 盗了官网的图直观展示一下效果 准备工作
为为为什么
2022/08/04
2.1K0
Python - 进度条神器 tqdm 用法
给Python代码加上酷炫进度条的几种姿势
大家好,在下载某些文件的时候你一定会不时盯着进度条,在写代码的时候使用进度条可以便捷的观察任务处理情况,除了使用print来打印之外,今天本文就介绍几种给你的Python代码加上酷炫的进度条的方式。
刘早起
2020/06/04
9560
最近发现的4个Python命令行可视化库,太酷了!
分别是Bashplotlib、tqdm、PrettyTable、Colorama。
码农向前冲
2022/01/12
7010
最近发现的4个Python命令行可视化库,太酷了!
情人节限定!教你如何用Python拼接女神的照片~
前段时间准备情人节礼物,想到了能不能用过去所有的照片作为像素点,合成为一张合照。但是,我也没有处理这方面问题的经验,于是上网查找,果然找到了一个相关的代码(原网址实在找不到了,就不贴了)。花了一晚上的时间研究学习,最终实现了合成照片的功能,并学习了很多以前没有接触过的Python库,加以记录。
Here_SDUT
2022/09/19
9260
情人节限定!教你如何用Python拼接女神的照片~
msgpack,fmtlib和RPClib库的介绍及使用
MsgPack 是一种高效的二进制序列化格式。官方对msgpack地道的介绍:——It's like JSON,but fast and small.
杨永贞
2022/05/13
1.8K0
msgpack,fmtlib和RPClib库的介绍及使用
python 三方库:tqdm实现进度条
在开发的过程中,我们总会遇到这样的,去实现进度条展示,那么如何来实现进度条呢,其实有一个模块已经给我们完成了--tqdm
雷子
2023/09/11
5410
python 三方库:tqdm实现进度条
Python tqdm显示代码任务进度
有时候在使用Python处理比较耗时操作的时候,为了便于观察处理进度,这时候就需要通过进度条将处理情况进行可视化展示,以便我们能够及时了解情况。
用户9925864
2022/07/27
2K0
Python tqdm显示代码任务进度
使用click创建完美的Python命令行程序
让我们将这些规则应用于一个具体的案例:一个使用Caesar cipher加密和解密消息的脚本。
用户8949263
2022/11/07
1.1K0
使用click创建完美的Python命令行程序
Python 奇思淫技
这篇文章主要和大家分享一些 Python 不一样的技巧,感受 Python 带给你的乐趣吧。
小草AI
2019/08/20
7920
Python 奇思淫技
推荐阅读
相关推荐
(数据科学学习手札53)Python中tqdm模块的用法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文