皮皮鲁的AI星球

62 篇文章
20 人订阅

全部文章

PP鲁

机器学习模型的容量、欠拟合和过拟合

我的网站公示显示效果更好,欢迎访问:https://lulaoshi.info/machine-learning/linear-model/underfit-o...

6330
PP鲁

最大似然估计:从概率角度理解线性回归的优化目标

我的网站公式显示效果更好:https://lulaoshi.info/machine-learning/linear-model/maximum-likelih...

3820
PP鲁

线性回归的求解:矩阵方程和梯度下降、数学推导及NumPy实现

我的网站公式显示效果更好:https://lulaoshi.info/machine-learning/linear-model/minimise-loss-f...

7130
PP鲁

机器学习 | 线性回归的数学表示

线性回归对已有数据进行建模,可以对未来数据进行预测。有些人觉得线性回归太过简单,甚至不屑于称之为机器学习;另外一些人觉得很多编程库已经对线性回归做了封装,使用时...

4420
PP鲁

Python机器学习库是如何打包并安装的

尽管依赖问题非常棘手,但明白包管理以及包编译安装原理有助于我们深刻理解计算机基本原理,避免成为一个调包侠。

8530
PP鲁

斯坦福MacroBase:实时端到端的异常点检测和解释系统

本文和大家分享一个来自Stanford的开源大数据和机器学习系统:MacroBase。

5620
PP鲁

机器学习 | K-Means聚类算法原理及Python实践

“聚类”(Clustering)试图将数据集中的样本划分为若干个不相交的子集,每个子集被称为一个“簇”或者“类”,英文名为Cluster。比如鸢尾花数据集(Ir...

9420
PP鲁

信息时代,我们可能离真相越来越远。

之前的两年我一直在做新闻平台上的大数据分析和用户阅读行为研究,对于新闻资讯有一些了解和认识。本文想结合本次疫情谈谈我对新闻媒体的认识。

7220
PP鲁

数据分析的三个阶段

金庸在《射雕英雄传》中刻画了郭靖这个形象,他一路追随江南七侠,到全真高人指点,再到师从洪七公学习降龙十八掌,在这个过程中他经历了几次蜕变,最终成长为一代大侠。我...

10730
PP鲁

端到端Exactly-Once是分布式系统最大挑战?Flink是如何解决的?

某条数据投递到某个流处理系统后,该系统对这条数据只处理一次,提供Exactly-Once的保障是一种理想的情况。如果系统不出任何故障,那简直堪称完美。然而现实世...

7810
PP鲁

浅谈Flink分布式运行时和数据流图的并行化

本文将以WordCount的案例为主线,主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章:读取Kafka实时数据流...

12910
PP鲁

Flink入门:读取Kafka实时数据流,实现WordCount

本文主要介绍Flink接收一个Kafka文本数据流,进行WordCount词频统计,然后输出到标准输出上。通过本文你可以了解如何编写和运行Flink程序。

23710
PP鲁

Java函数式编程快速入门: Lambda表达式与Stream API

函数式编程(Functional Programming)是一种编程范式。它已经有近60年的历史,因其更适合做并行计算,近年来开始受到大数据开发者的广泛关注。P...

9810
PP鲁

Java/Scala 泛型快速入门教程

泛型(Generics)是强类型编程语言中经常使用的一种技术。很多框架的代码中都会大量使用到泛型,比如在Java中我们经常看到的:

8010
PP鲁

聊聊Java/Scala的继承和多态

继承和多态是现代编程语言最为重要的概念。继承和多态允许用户将一些概念进行抽象,以达到代码复用的目的。本文用一些例子快速回顾一下Java/Scala的继承和多态。

8010
PP鲁

互联网信息分发简明史

在我看来,这个世界是由三个要素构成的,也即是:物质、能量、信息。那么什么是信息呢?

5210
PP鲁

Flink Broadcast State实战案例:电商平台用户行为模式分析

Broadcast State是Flink 1.5引入的功能,本文将跟大家分享Broadcast State的潜在使用场景,并使用电商用户行为分析的例子来演示B...

10510
PP鲁

ProcessFunction:Flink最底层API使用案例详解

之前提到的一些算子和函数能够进行一些时间上的操作,但是不能获取算子当前的Processing Time或者是Watermark时间戳,调用起来简单但功能相对受限...

17421
PP鲁

数据分析没思路?疫情分析是最好的实战教材

这些天新冠病毒肺炎疫情成了全世界关注的焦点,网上的各类言论满天飞,有散布焦虑的、有监督红会的,有买卖中药的、也有各类阴谋论的,很多文章毫无数据支撑,却得到了大量...

32030
PP鲁

Flink Checkpoint机制原理剖析与参数配置

在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机...

11120

扫码关注云+社区

领取腾讯云代金券