在Scala中按给定事件分组列表_在Python中按列表列表中的项分组_按字典中的列表分组 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

scala快速入门系列【Actor实现WordCount】

本篇作为scala快速入门系列的第三十九篇博客，为大家带来的是关于如何用Actor实现WordCount的内容。

02

键值对操作

键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如统计每个产品的评论,将数据中键相同的分为一组,将两个不同的 RDD 进行分组合并等)。

03

您找到你想要的搜索结果了吗？

是的

没有找到

01.Scala：开发环境搭建、变量、判断、循环、函数、集合

早期，scala刚出现的时候，并没有怎么引起重视，随着Kafka和Spark这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。

02

Spark学习之键值对（pair RDD）操作（3）

本文介绍了Spark中Pair RDD操作，包括如何从一个RDD中提取字段作为键，如何创建和转换Pair RDD，以及针对两个Pair RDD的转换操作等。此外，还介绍了Pair RDD的数据分区方式，包括自定义分区方式和HashPartitioner分区方式等。

2021年大数据常用语言Scala（二十六）：函数式编程分组 groupBy

def groupBy[K](f: (A) ⇒ K): Map[K, List[A]]

03

Scala——多范式, 可伸缩, 类似Java的编程语言

3.将features和plugins两个文件夹拷贝到eclipse安装目录中的” dropins/scala”目录下。进入dropins，新建scala文件夹，将两个文件夹拷贝到“dropins/scala”下

02

BigData--分布式流数据流引擎Apache Flink

官网：https://flink.apache.org/ 一、Flink的重要特点 1）事件驱动型（Event-driven）事件驱动的应用程序是一个有状态的应用程序，它从一个或多个事件流接收事件，并通过触发计算、状态更新或外部操作对传入事件作出反应。事件驱动应用程序是传统应用程序设计的一种发展，它具有分离的计算和数据存储层。在这种体系结构中，应用程序从远程事务数据库读取数据并将其持久化。相反，事件驱动应用程序基于有状态流处理应用程序。在这个设计中，数据和计算被放在同一个位置，从而产生本地（内存或

01

Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理

时间、窗口、水印、迟到数据这四个知识点几乎是Flink这个框架最难点。我之前发了很多文章来解释。很多同学仍然理解不了。

06

Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

本文介绍了 Structured Streaming 是如何逐步从 Apache Spark 生态系统中发展起来的，以及其设计理念和实现方式。本文还介绍了 Structured Streaming 在实际应用中的优势，包括与批处理计算的关系、与 Apache Kafka 的集成、以及在高吞吐和低延迟场景下的性能表现。此外，本文还提供了若干实例，以展示 Structured Streaming 在各种应用场景中的实际效果。

06

scala快速入门系列【函数式编程】

本篇作为scala快速入门系列的第十六篇博客，为大家带来的是关于函数式编程的相关内容。

02

Scala 高阶（八）：集合内容汇总（下篇）

在上一篇集合的分享中，讲解了Scala中集合的基本概述以及常用集合的基本操作，本次住要分享Scala中集合更高级的操作。

02

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

03

Flink1.4 Operator概述

算子(Operator)将一个或多个 DataStream 转换为新的 DataStream。程序可以将多个转换组合成复杂的数据流拓扑。

02

如何在 Scala 中科学地操作 collection（一）集合类型与操作

在日常项目开发中，我们几乎都会用到Scala中的集合以及一些集合操作。由于 Scala 中的集合操作灵活多变，对于刚接触Scala的开发者，在选用何种集合以及使用何种集合操作就显得不那么合理了，虽然大

06

Scala | 教程 | 学习手册 --- 常用集合

所有集合的根是Iterator，它提供了一组公共方法，可以用来迭代处理和管理集合数据。

02

Scala的方法和函数讲解

在Scala中，它和Java一样也是拥有方法和函数。Scala的方法是类的一部分，而函数是一个对象可以赋值给一个变量。换句话来说，在类中定义的函数即是方法。

00

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

01

Scala的方法和函数讲解

在Scala中，它和Java一样也是拥有方法和函数。Scala的方法是类的一部分，而函数是一个对象可以赋值给一个变量。换句话来说，在类中定义的函数即是方法。

04

Scala的函数

----------目录--------------------------------------------------------- 1.Scala简介和安装 2.Scala语法介绍 3.Scala的函数 4.Scala中的集合类型 ------------------------------------------------------------------------------------------------------------- Scala的函数 1、函数的声明 scala

04

Flink实战(三) - 编程范式及核心概念

Flink程序是实现分布式集合转换的常规程序（例如，过滤，映射，更新状态，加入，分组，定义窗口，聚合）。最初从源创建集合（例如，通过从文件，kafka主题或从本地的内存集合中读取）。结果通过接收器返回，接收器可以例如将数据写入（分布式）文件或标准输出（例如，命令行终端）。 Flink程序可以在各种环境中运行，独立运行或嵌入其他程序中。执行可以在本地JVM中执行，也可以在许多计算机的集群上执行。

02

Apache Spark：大数据领域的下一件大事？

Apache Spark正在引起很大的热议。Databricks是为支持Spark而成立的一个公司，它从Andreessen Horowitz募集到了$ 1400万美元，Cloudera决定全力支持Spark，其他人也认为这是下一件大事。所以我认为现在是时候看看并了解整个动态了。

04

Flink在用户行为分析中的应用(一)

传统的企业营销大体是营销人员通过查询画像标签库去圈选人群,这种方案往往无法抓住那些"转瞬即逝的机会"

00

scala快速入门系列【正则表达式】

本篇作为scala快速入门系列的第三十二篇博客，为大家带来的是关于正则表达式的内容。

03

基于flink的电商用户行为数据分析【4】| 恶意登录监控

前言在上一期内容中，菌哥已经为大家介绍了实时热门商品统计模块的功能开发的过程(?基于flink的电商用户行为数据分析【3】| 实时流量统计）。本期文章，我们需要学习的是恶意登录监控模

02

以直播平台监控用户弹幕为例详解 Flink CEP

我们在看直播的时候，不管对于主播还是用户来说，非常重要的一项就是弹幕文化。为了增加直播趣味性和互动性, 各大网络直播平台纷纷采用弹窗弹幕作为用户实时交流的方式，内容丰富且形式多样的弹幕数据中隐含着复杂的用户属性与用户行为, 研究并理解在线直播平台用户具有弹幕内容审核与监控、舆论热点预测、个性化摘要标注等多方面的应用价值。

01

Scala 集合

Option 是一个表示有可能包含值的容器。 Option 本身是泛型的，并且有两个子类： Some[T] 或 None

01

Flink实战(三) - 编程范式及核心概念

Flink程序是实现分布式集合转换的常规程序（例如，过滤，映射，更新状态，加入，分组，定义窗口，聚合）。最初从源创建集合（例如，通过从文件，kafka主题或从本地的内存集合中读取）。结果通过接收器返回，接收器可以例如将数据写入（分布式）文件或标准输出（例如，命令行终端）。 Flink程序可以在各种环境中运行，独立运行或嵌入其他程序中。执行可以在本地JVM中执行，也可以在许多计算机的集群上执行。

04

硬核！一文学完Flink流计算常用算子（Flink算子大全）

Flink和Spark类似，也是一种一站式处理的框架；既可以进行批处理（DataSet），也可以进行实时处理（DataStream）。

03

机器学习实践：用 Spark 和 DBSCAN 对地理定位数据进行聚类

【新智元导读】数据专家 Natalino Busa 在本文中讨论了如何从大量的定位事件中获取用户的活动区域来构建基于位置的服务。他经过论证得出，DBSCAN算法与Spark的结合似乎是一种很有前途的方法，可以抽取准确的地理位置模式，并用于开发基于各种场景的数据驱动、基于位置的应用程序，例如个性化营销、欺诈防范和内容过滤。机器学习，特别是聚类算法，可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能，比如基于地理位置的推荐系统，先进的安全系统，或更通常来说，提供更

08

2021年大数据常用语言Scala（十七）：基础语法学习 Set

---- Set Set(集)是代表没有重复元素的集合。Set具备以下性质：元素不重复不保证插入顺序和List正好相反, List: 元素可以重复保证插入顺序 scala中的集也分为两种，一种是不可变集，另一种是可变集。不可变集定义语法创建一个空的不可变集，语法格式： val/var 变量名 = Set[类型]() 给定元素来创建一个不可变集，语法格式： val/var 变量名 = Set(元素1, 元素2, 元素3...) 示例一定义一个空的不可变集参考代码 scala> val a

02

五万字 | Flink知识体系保姆级总结

一、Flink简介二、Flink 部署及启动三、Flink 运行架构四、Flink 算子大全五、流处理中的 Time 与 Window 六、Flink 状态管理七、Flink 容错八、Flink SQL 九、Flink CEP 十、Flink CDC 十一、基于 Flink 构建全场景实时数仓十二、Flink 大厂面试题

04

Flink算子使用方法及实例演示：map、filter和flatMap

本文将对Flink Transformation中各算子进行详细介绍，并使用大量例子展示具体使用方法。Transformation各算子可以对Flink数据流进行处理和转化，是Flink流处理非常核心的API。如之前文章所述，多个Transformation算子共同组成一个数据流图。

02

反应式编程详解

| 导语反应式编程是在命令式编程、面向对象编程之后出现的一种新的编程模型，是一种以优雅的方式，通过异步和数据流来构建事务关系的编程模型。本文包括反应式编程的概述和 RxPy 实战，以及怎样去理解反应式编程才能更好的把它融入到我们的编程工作中，把反应式编程变成我们手中的利器。

03

JVM 上数据处理语言的竞争：Kotlin, Scala 和 SPL

Kotlin的设计初衷是开发效率更高的Java，可以适用于任何Java涉及的应用场景，除了常见的信息管理系统，还能用于WebServer、Android项目、游戏开发，通用性比较好。Scala的设计初衷是整合现代编程范式的通用开发语言，实践中主要用于后端大数据处理，其他类型的项目中很少出现，通用性不如Kotlin。SPL的设计初衷是专业的数据处理语言，实践与初衷一致，前后端的数据处理、大小数据处理都很适合，应用场景相对聚焦，通用性不如Kotlin。

如何利用机器学习和分布式计算来对用户事件进行聚类

导读机器学习，特别是聚类算法，可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能，比如基于地理位置的推荐系统，先进的安全系统，或更通常来说，提供更个性化的用户体验。在这篇文章中，我会确定对每个人来说特定的地理活动区域，讨论如何从大量的定位事件中（比如在餐厅或咖啡馆的签到）获取用户的活动区域来构建基于位置的服务。举例来说，这种系统可以识别一个用户经常外出吃晚饭的区域。使用DBSCAN聚类算法首先，我们需要选择一种适用于定位数据的聚类算法，可以基于提供的数

06

大数据测试学习笔记之Python工具集

这是2018年度业余主要学习和研究的方向的笔记：大数据测试整个学习笔记以短文为主，记录一些关键信息和思考预计每周一篇短文进行记录，可能是理论、概念、技术、工具等等学习资料以IBM开发者社区、华为开发者社区以及搜索到的相关资料为主我的公众号：开源优测大数据测试学习笔记之Python工具集简介在本次笔记中主要汇总Python关于大数据处理的一些基础性工具，个人掌握这些工具是从事大数据处理和大数据测必备技能主要工具有以下（包括但不限于）： numpy pandas SciPy Scikit-L

06

一篇文章带你深入理解FlinkSQL中的窗口

时间语义，要配合窗口操作才能发挥作用。最主要的用途，当然就是开窗口、根据时间段做计算了。下面我们就来看看 Table API 和 SQL 中，怎么利用时间字段做窗口操作。在 Table API 和 SQL 中，主要有两种窗口：Group Windows 和 Over Windows（时间语义的文章推荐）

03

scala 容器详细解释

scala 中的所有集合类位于 scala.collection 或 scala.collection.mutable，scala.collection.immutable，scala.collection.generic 中

01

Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)

流式：就是数据源源不断的流进来，也就是数据没有边界，但是我们计算的时候必须在一个有边界的范围内进行，所以这里面就有一个问题，边界怎么确定？无非就两种方式，根据时间段或者数据量进行确定，根据时间段就是每隔多长时间就划分一个边界，根据数据量就是每来多少条数据划分一个边界，Flink 中就是这么划分边界的，本文会详细讲解。

00

Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)

流式：就是数据源源不断的流进来，也就是数据没有边界，但是我们计算的时候必须在一个有边界的范围内进行，所以这里面就有一个问题，边界怎么确定？无非就两种方式，根据时间段或者数据量进行确定，根据时间段就是每隔多长时间就划分一个边界，根据数据量就是每来多少条数据划分一个边界，Flink 中就是这么划分边界的，本文会详细讲解。

01

Akka FSM 源代码分析

有限状态机本身不是啥新奇东西，在GoF的设计模式一书中就有状态模式，也给出了实现的建议。各种语言对状态机模式都有非常多种实现的方式。我自己以前用C++和java实现过，也以前把 apache mina 源代码中的一个状态机实现抠出来单独使用。

02

Flink入门（五）——DataSet Api编程指南

Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天，Flink正在飞速发展。由于性能的优势和兼顾批处理，流处理的特性，Flink可能正在颠覆整个大数据的生态。

05

Scala专题系列(四) : Scala集合

层级1 ：Iterable指的是哪些能生成涌来访问集合中所有元素的Iterator的集合

03

Flink零基础实战教程：股票价格数据流处理

之前的《万字长文深度解析WordCount程序》使用WordCount展示了Flink程序的基本结构，本文将以股票价格案例来演示如何使用Flink的DataStream API。通过本文，你可以学到：

01

彻底搞懂 etcd 系列文章之：etcd 事务 AP

彻底搞懂 etcd 系列文章之：etcd 事务 AP

03

彻底搞懂 etcd 系列文章（八）：etcd 事务 API

etcd 是云原生架构中重要的基础组件，由 CNCF 孵化托管。etcd 在微服务和 Kubernates 集群中不仅可以作为服务注册与发现，还可以作为 key-value 存储的中间件。

01

基于flink的电商用户行为数据分析【3】| 实时流量统计

前言在上一期内容中，菌哥已经为大家介绍了实时热门商品统计模块的功能开发的过程(?基于flink的电商用户行为数据分析【2】| 实时热门商品统计)。本期文章，我们要学习的是实时流量统

01

估算卷积层与反卷积层运算量

对于炼丹师来说，针对任务调整网络结构或者在做模型精简的时候，都会去考虑模型的运算量的大概值，虽然这个只是一个间接参考值，网络真正的运行速度还要考虑其他的因素（具体解释可以参考shufflenet v2这篇文章的解读）。

02

Flink入门——DataSet Api编程指南

Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天，Flink正在飞速发展。由于性能的优势和兼顾批处理，流处理的特性，Flink可能正在颠覆整个大数据的生态。

07

原 SparkSQL语法及API

SparkSQL语法及API 一、SparkSql基础语法 1、通过方法来使用 1．查询 df.select("id","name").show(); 1>带条件的查询 df.select($"id",$"name").where($"name" === "bbb").show() 2>排序查询 orderBy/sort($"列名") 升序排列 orderBy/sort($"列名".desc) 降序排列 orderBy/sort($"列1" , $"列2".desc) 按两列排序

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭