首页
学习
活动
专区
工具
TVP
发布

皮皮鲁的AI星球

专栏作者
79
文章
181159
阅读量
34
订阅数
AlphaCode论文和背后原理快速解读,也许程序员短期内还不会被取代...
这两天科技媒体沸腾了!DeepMind继AlphaGo、AlphaFold之后,推出了Alpha系列又一神器:AlphaCode。据说这是一个可以自己写代码的AI,并且已经在实际比赛中击败了 46% 左右人类选手!
PP鲁
2022-09-20
6590
什么是词向量?如何得到词向量?Embedding 快速解读
我第一次接触 Embedding 是在 Word2Vec 时期,那时候还没有 Transformer 和 BERT 。Embedding 给我的印象是,可以将词映射成一个数值向量,而且语义相近的词,在向量空间上具有相似的位置。
PP鲁
2022-09-20
2K0
机器学习 | K-Means聚类算法原理及Python实践
“聚类”(Clustering)试图将数据集中的样本划分为若干个不相交的子集,每个子集被称为一个“簇”或者“类”,英文名为Cluster。比如鸢尾花数据集(Iris Dataset)中有多个不同的子品种:Setosa、Versicolor、Virginica,不同品种的一些观测数据是具有明显差异的,我们希望根据这些观测数据将其进行聚类。
PP鲁
2020-04-24
1.4K0
浅谈Flink分布式运行时和数据流图的并行化
本文将以WordCount的案例为主线,主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章:读取Kafka实时数据流,实现Flink WordCount。阅读完本文后,读者可以对Flink的分布式运行时有一个全面的认识。
PP鲁
2020-02-26
1.6K0
Java函数式编程快速入门: Lambda表达式与Stream API
函数式编程(Functional Programming)是一种编程范式。它已经有近60年的历史,因其更适合做并行计算,近年来开始受到大数据开发者的广泛关注。Python、JavaScript等当红语言对函数式编程支持都不错,Scala更是以函数式编程的优势在大数据领域攻城略地,即使是老牌的Java为了适应函数式编程,也加大对函数式编程的支持。未来的程序员或多或少都要了解一些函数式编程思想。本文抛开一些数学推理等各类复杂的概念,从使用的角度带领读者入门函数式编程。
PP鲁
2020-02-26
1.1K0
Java/Scala 泛型快速入门教程
泛型(Generics)是强类型编程语言中经常使用的一种技术。很多框架的代码中都会大量使用到泛型,比如在Java中我们经常看到的:
PP鲁
2020-02-26
7090
互联网信息分发简明史
在我看来,这个世界是由三个要素构成的,也即是:物质、能量、信息。那么什么是信息呢?
PP鲁
2020-02-17
3890
Flink Broadcast State实战案例:电商平台用户行为模式分析
Broadcast State是Flink 1.5引入的功能,本文将跟大家分享Broadcast State的潜在使用场景,并使用电商用户行为分析的例子来演示Broadcast State的使用方法。关于Flink状态的基本原理,Keyed State和Operator State的使用方法,可以参考我之前的文章:Flink状态详解。
PP鲁
2020-02-17
9830
ProcessFunction:Flink最底层API使用案例详解
之前提到的一些算子和函数能够进行一些时间上的操作,但是不能获取算子当前的Processing Time或者是Watermark时间戳,调用起来简单但功能相对受限。如果想获取数据流中Watermark的时间戳,或者在时间上前后穿梭,需要使用ProcessFunction系列函数,它们是Flink体系中最底层的API,提供了对数据流更细粒度的操作权限。Flink SQL是基于这些函数实现的,一些需要高度个性化的业务场景也需要使用这些函数。
PP鲁
2020-02-17
1.6K0
Flink Checkpoint机制原理剖析与参数配置
在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机或网络中断等问题,那么本地的状态在遇到故障时如何保证不丢呢?Flink定期保存状态数据到存储上,故障发生后从之前的备份中恢复,整个被称为Checkpoint机制,它为Flink提供了Exactly-Once的投递保障。本文将介绍Flink的Checkpoint机制的原理。本文会使用多个概念:快照(Snapshot)、分布式快照(Distributed Snapshot)、检查点(Checkpoint)等,这些概念均指的是Flink的Checkpoint机制,读者可以将这些概念等同看待。
PP鲁
2020-02-17
1.5K0
Flink状态管理详解:Keyed State和Operator List State深度解析
有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能:
PP鲁
2020-02-17
3.3K0
Flink时间系列:如何处理迟到数据
Event Time语义下我们使用Watermark来判断数据是否迟到。一个迟到元素是指元素到达窗口算子时,该元素本该被分配到某个窗口,但由于延迟,窗口已经触发计算。目前Flink有三种处理迟到数据的方式:
PP鲁
2020-02-17
3.6K0
Flink时间系列:如何在两个DataStream上进行Join操作
批处理经常要解决的问题是将两个数据源做关联Join操作。比如,很多手机APP都有一个用户数据源User,同时APP会记录用户的行为,我们称之为Behavior,两个表按照userId来进行Join。在流处理场景下,Flink也支持了Join,只不过Flink是在一个时间窗口上来进行两个表的Join。
PP鲁
2020-02-17
2.5K0
Flink窗口全解析:三种时间窗口、窗口处理函数使用及案例
我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理。本文将介绍如何在Flink上进行窗口的计算。
PP鲁
2020-02-17
5.8K0
Flink时间语义、Event Time和Watermark机制深度解析
在流处理中,时间是一个非常核心的概念,是整个系统的基石。比如,我们经常会遇到这样的需求:给定一个时间窗口,比如一个小时,统计时间窗口的内数据指标。那如何界定哪些数据将进入这个窗口呢?在窗口的定义之前,首先需要确定一个应用使用什么样的时间语义。
PP鲁
2020-01-14
2.9K0
Flink零基础教程:并行度和数据重分布
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。读者可以使用Flink Scala Shell或者Intellij Idea来进行练习:
PP鲁
2019-12-30
8060
Flink算子使用方法及实例演示:keyBy、reduce和aggregations
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。本文主要介绍基于Key的分组转换,关于时间和窗口将在后续文章中介绍。读者可以使用Flink Scala Shell或者Intellij Idea来进行练习:
PP鲁
2019-12-26
8.1K1
Flink零基础实战教程:股票价格数据流处理
之前的《万字长文深度解析WordCount程序》使用WordCount展示了Flink程序的基本结构,本文将以股票价格案例来演示如何使用Flink的DataStream API。通过本文,你可以学到:
PP鲁
2019-12-26
1.7K0
Flink笔记02 | 一文读懂流式大数据引擎的基础概念
最近我在学习流式计算引擎Flink,正在阅读Flink的官方文档、一些技术博客以及《Streaming Processing with Apache Flink》这本书,并试图将一些知识整理下来,形成一个系列。
PP鲁
2019-12-26
1.4K1
都在追捧的新一代大数据引擎Flink到底有多牛?
提起大数据处理引擎,很多人会想到Hadoop或Spark,而在2019年,如果你身处大数据行业却没听说过Flink,那你很可能OUT了!Flink是大数据界冉冉升起的新星,是继Hadoop和Spark之后的新一代大数据处理引擎。2019年初,阿里巴巴以1.033亿美元的价格收购了总部位于德国柏林的初创公司Data Artisans,Data Artisans的核心产品是正是Flink。
PP鲁
2019-12-26
9780
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档