首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2138
文章
1921696
阅读量
188
订阅数
干货 | 蚂蚁集团阳振坤:从OceanBase看创新软件的研制
今天我会围绕以上几个方面展开:首先,为什么要选这个项目来做,我自己没学过数据库,而且在当时也没用过。项目诞生之后很快就遇到了生存危机,危机之后找到一些发展机会。我经常跟很多人讲,数据库跟图书馆书架特别像,数据库其实就是个数字图书馆,大家想想看在一个块里插一套记录,是不是就相当于插一本书进去把别人的书往后挪一下。 李国杰院士跟我讲:“最好的东西就是ACID,最糟糕的东西也是它”。之所以糟糕,是因为最不好做,最难的也在这里。关系数据库能做很多事,它的核心是具备了三个能力——记账、转账、算账,因为数据库就是在这
数据派THU
2023-04-03
3750
快手八卦!突破TensorFlow、PyTorch并行瓶颈的开源分布式训练框架来了!
来源:AI前线 本文约5200字,建议阅读8分钟 本文介绍了专门针对分布式场景设计了特定的优化算法同比,性能较同类提升60%。 近日,快手和苏黎世理工宣布开源分布式训练框架 Bagua(八卦),相比于 PyTorch、TensorFlow 等现有深度学习开源框架仅针对系统层面进行优化,Bagua 突破了这一点,专门针对分布式场景设计了特定的优化算法,实现了算法和系统层面的联合优化,性能较同类提升 60%。 研发背景 随着摩尔定律的失效,单个计算单元的能力已经远远无法满足数据的指数级增长。比如,快手每天上传
数据派THU
2023-03-29
3360
几行 Python 代码就可以提取数百个时间序列特征
来源:DeepHub IMBA本文约900字,建议阅读5分钟在本文中,我们将深入讨论tsfresh包的使用。 时间序列数据是随着时间的推移反复捕获的变量值,随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中,数据具有自然的时间顺序,即一个变量在特定时间的值依赖于过去的值。 传统的机器学习算法不能捕捉时间序列数据的时间顺序。数据科学家需要执行相关的特征工程,将数据的重要特征捕获到几个指标中。生成大量的时间序列特征并从中提取相关特征是一项耗时且繁琐的工作。 python的tsfresh包可以为
数据派THU
2022-08-29
7050
分布式学习和联邦学习简介​
来源:DeepHub IMBA本文约2200字,建议阅读5分钟本文讨论分布式学习和联邦学习的主要原理以及它们是如何工作的。 在这篇文章中,我们将讨论分布式学习和联邦学习的主要原理以及它们是如何工作的。首先,我们从一个简单的单机示例开始,然后将其发展为分布式随机梯度下降(D-SGD),最后是联邦学习(FL)。 集中学习(单机) 一个最简单的例子,我们想学习人的身高和体重之间的线性关系,并且我们拥有100人的体重和身高数据,想训练一种线性模型,该模型使用身高预测人们的体重,线性回归W = [a,b]如下:
数据派THU
2022-08-29
6590
2013年图灵奖得主Leslie Lamport:如何写出数学上完美的算法
来源:新智元本文约3100字,建议阅读6分钟对程序员而言,对数学思维的强调永远不会过分,要写出好代码,不能惧怕数学。 图灵奖得主、分布式系统先驱、LaTeX之父Leslie Lamport认为,对于程序员而言,对数学思维的强调永远不会过分,要写出好代码,不能惧怕数学。 Leslie Lamport可能不是一个家喻户晓的名字,但一提到和他有关的研究,相信你一定不陌生。 排版程序LaTeX和分布式系统。前者发过论文的都懂,后者则使谷歌和亚马逊的云基础设施成为可能。 2013年,Lamport因其
数据派THU
2022-06-13
4540
刘知远 陈慧敏:流言止于“智”者——网络虚假信息的特征与检测
互联网的深度普及加速了“信息时代”的到来,网络中每个人都可以以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷,给社会进步和人类发展带来了福祉。然而,凡事终有两面,互联网也为人类社会带来了巨大的挑战——网络中的信息鱼龙混杂,虚假信息无处不在。
数据派THU
2019-12-05
1.1K0
数据蒋堂 | 数据分布背后的逻辑
本文共1100字,建议阅读7分钟。 在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。
数据派THU
2019-06-28
5000
独家 | 一文读懂Apache Flink技术
本文来自9月1日在成都举行的Apache Flink China Meetup,分享来自于云邪。
数据派THU
2018-12-04
9070
干货 | 下一代数据网:数据驱动的云网链一体化(附视频)
本讲座选自清华-青岛数据科学研究院大数据基础设施研究中心特聘研究员刘运渠9月5日在Odaily星球日报 X 36Kr P.O.D大会上所做的题为《下一代数据网:数据驱动的云网链一体化》的演讲。
数据派THU
2018-09-17
8420
徐葳:做“跨学科”的点点星火 | 访交叉信息研究院助理教授徐葳
徐葳,清华大学交叉信息研究院助理教授,助理院长,清华大学数据科学研究院管理委员会委员、兼职RONG教授,清华大学金融科技研究院副院长。专注于交叉学科的分布式系统和机器学习方面的研究。美国加州大学伯克利分校计算机硕士、博士,师从2017年图灵奖获得者David Patterson教授。在宾夕法尼亚大学计算机获得学士学士学位(在清华计算机系本科学习两年)。2013年入选“青年千人计划”,曾获得谷歌、IBM的教授科研奖,获得清华大学“良师益友”特别奖,清华大学先进工作者等称号。在系统、网络、机器学习、光通讯等多领域顶尖会议如SOSP,Sigcomm,EuroSys,ICML,OFC等发表论文40余篇,总引用超1700次,并获得DSN,APSys最佳论文奖。加入清华前,他曾在谷歌总部工作,负责基础架构可靠性方面的研发。
数据派THU
2018-07-30
7910
报名 | 区块链技术与数据隐私讲座
尽管目前区块链概念没有一个确定的定义,但根据其特点,我们可以把它理解为互联网底层多种技术的集合体,包括P2P通信协议、分布式存储数据库技术、加密算法、共识算法等技术,通过这些技术的整合创造了一种按时间序列、按区块记录数据、所有数据在所有节点备份的数据库结构,达到去中心化、点对点传输、透明、可追踪、不可篡改、数据安全及信用的自我建立的功能。由于这些特点,区块链技术不仅可以成功应用于数字加密货币领域,同时在经济、金融和社会系统中也存在广泛的应用场景。 然而区块链技术发展至今,却“一半是火焰、一半是海水”,追逐者
数据派THU
2018-06-07
7510
介绍一位分布式流处理新贵:Kafka Stream
来源:CSDN大数据 本文长度为2609字,建议阅读6分钟 本文为你全面解析流式数据系统Kafka Stream。 本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如何解决流式系统中的关键问题,如时间定义,窗口操作,Join操作,聚合操作,以及如何处理乱序和提供容错能力。最
数据派THU
2018-01-29
9.3K1
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档