首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
280243
阅读量
49
订阅数
records包源码解析
核心类有三个 Record, RecordCollection, Database。在做源码分析时,先从入口类Database开始:
哒呵呵
2018-12-19
7130
这几个月读过的书
今天写下这几个月读过的好书吧。 《stream system》(未出中文版) 如果说去年的神作是《Design Data intensive Application》的话,那今年的神作莫过于这本书了。此书首先开篇批评了Lambda架构存在的问题,例如造成系统的复杂性等等,对流计算不是精确性的提出了质疑,表示一个设计良好的流计算系统是可以做到精确和一致的。《Stream System》整书可以划分为两个大的章节,一个是描述了Dataflow模型的核心概念和流计算所遇到的问题,最精彩的就是前面两篇,从流计算所面
哒呵呵
2018-12-06
4090
关于英语,也许你忽视了很多东西
这是葛传椝老先生对英语学习者的教导,通篇用易读的英文短文讲述了英语学习过程中的种种心得,其中“大都是英语语法书和英语修辞学书不曾提到的”,文短而词丰,言简而意赅。
哒呵呵
2018-12-06
6060
Raft算法导读
Raft设计出来是为了实现工程上的可用,避免Paxos算法的复杂性,从In Search of an Understandable Consensus Algorithm (Extended Version)这篇论文也可以看出,Raft部分原因也是为教学设计。论文很长,并且也已经有中译版,权且把这篇文章当作一篇导读。
哒呵呵
2018-10-18
9250
如何设计一个良好的流系统?(下)
在Streaming 101中,作者引入了窗口和时间的概念,在本文中,作者为了解决流处理系统无法精确的处理结果的问题,提出了下面三个概念:
哒呵呵
2018-09-18
8750
如何设计一个良好的流系统?(上)
streaming system有两篇经典博客:streaming 101和streaming 102,深刻的描述了流系统的精髓和对未来的展望,这篇文章权当一个导读的作用。
哒呵呵
2018-09-18
5650
Apache Kafka核心概念入门
Apache Kafka是一款基于日志的消息系统,后来Kafka发展成为了一个“distributed streaming platform”,包含了消息系统,存储系统和流处理系统三个功能。
哒呵呵
2018-09-18
4340
Apache Beam研究
Apache Beam是Google开源的,旨在统一批处理和流处理的编程范式,核心思想是将批处理和流处理都抽象成Pipeline、Pcollection、PTransform三个概念。Apache Beam本身是不具备计算功能的,数据的交换和计算都是由底层的工作流引擎(Apache Apex, Apache Flink, Apache Spark, and Google Cloud Dataflow)完成,由各个计算引擎提供Runner供Apache Beam调用,而Apache Beam提供了Java、Python、Go语言三个SDK供开发者使用。
哒呵呵
2018-09-18
1.4K0
协程--以Python和Go为例
一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。
哒呵呵
2018-08-07
1.4K0
在hadoop2.0上实现深度学习
我承认我又偷懒了,只是大概写了下提纲,和完成了第一章节的部分写作。不睡午觉的恶果啊,原本已经写好草稿,讲讲语言和信息的关系,结果,实在是回家后好困。
哒呵呵
2018-08-06
9430
机器学习应该知道的事(下)
新的一周又开始了,作为引子的review,还是有点长的,大家可以耐心的读读,绝对会让你有种豁然开朗的感觉。下周的重点是统计语言模型,别想的那么复杂,实际上就是贝叶斯概率和线性代数。窃以为,所谓以代码来讲解算法的,就是在培训码农,而不是一名合格的程序员。虽然,作为应用的学科,证明并不是那么像纯数学那样重要,但总归还是得明白原理吧。
哒呵呵
2018-08-06
3650
关于机器学习应该知道的事(上)
这是一篇翻译,为了能有效率的读下去,特地分成两篇。因为只是作为我个人学习的记录,所以没有考虑到微信排版之类的。内容才是王道。
哒呵呵
2018-08-06
4560
写给开发者的机器学习指南(五)
本节描述了应用机器学习技术时的一些常见缺陷。这个部分的想法是让你意识到这些陷阱,并帮助你不要走进这些坑。
哒呵呵
2018-08-06
5230
写给开发者的机器学习指南(四)
查全率是定义由给定查询和数据语料库的算法检索的相关性的大小。因此,给定一组文档和应该返回这些文档的子集的查询,查全率的值表示实际返回了多少相关文档。 此值计算如下:
哒呵呵
2018-08-06
7150
写给开发者的机器学习指南(三)
在本节中,我们将解释一些可用于模型验证的技术,以及在验证技术范围内机器学习领域常用的一些术语。
哒呵呵
2018-08-06
4010
写给开发者的机器学习指南(二)
在机器学习领域有两种主要的学习方式,即监督学习和无监督学习。当您想在您的应用程序中使用机器学习时,需要简要说明下,因为选择正确的机器学习方法和算法是一个重要但有时也是一个繁琐的过程。
哒呵呵
2018-08-06
3550
写给开发者的机器学习指南(一)
大多数开发人员已经听说过机器学习,但是当试图找到一种“容易”的方法进入这种技术时,大多数人发现自己被机器学习和术语的抽象概念吓退了,例如回归,无监督学习,概率密度函数等许多其他的定义。如果一个人选择阅读书籍,如使用R语言的统计学习介绍,以及使用R语言的黑客的机器学习。
哒呵呵
2018-08-06
3700
机器学习库/包的比较
当涉及到训练计算机的行为而不需要明确的编程,存在大量的机器学习领域的工具。学术和工业界专业人士使用这些工具来构建从语音识别到MRI扫描中的癌症检测的许多应用。许多这些工具可以在网上免费获得。如果你有兴趣,我已经编译了这些(见本页底部)的排名,以及区分它们中一些重要功能的概述。具体来说,该工具所用的语言、每个工具的主页网站上的描述、对机器学习中特定范式的关注以及学术界和工业界的一些主要用途。
哒呵呵
2018-08-06
9230
如何在tweet上识别不实消息(一)
谣言通常被定义为其真实价值不可核实的状态。谣言可能传播错误信息(false infor-
哒呵呵
2018-08-06
1.1K0
写给开发者的机器学习指南(十)
An attempt at rank prediction for topselling books using text regression
哒呵呵
2018-08-06
3390
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档