首页
学习
活动
专区
工具
TVP
发布

about云

专栏作者
216
文章
314734
阅读量
58
订阅数
Spark 2.0技术预览:更容易、更快速、更智能
  在过去的几个月时间里,我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作:Apache Spark2.0。Spark 1.0已经出现了2年时间,在此期间,我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的:用户所喜爱的我们加倍投入;用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题:更容易、更快速、更智能。更深入的介绍将会在后面博客进行介绍。
用户1410343
2023-03-21
3350
Flink流之动态表详解
问题导读 1.动态表有什么特点? 2.流处理与批处理转换为表后有什么相同之处? 3.动态表和连续查询是什么关系? 4.连续查询本文列举了什么例子? 5.Flink的Table API和SQL支持哪三种编码动态表更改的方法? 由于Flink对流式数据的处理超越了目前流行的所有框架,所以非常受各大公司的欢迎,其中包括阿里,美团、腾讯、唯品会等公司。而当前也有很多的公司在做技术调研而跃跃欲试。
用户1410343
2019-03-14
4.1K0
Hadoop 2.x与3.x 22点比较:3.x将节省大量存储空间
1.Hadoop3.x通过什么方式来容错? 2.Hadoop3.x存储开销减少了多少? 3.Hadoop3.x MR API是否兼容hadoop1.x?
用户1410343
2018-10-08
2.2K0
浅谈医学大数据(上)
编者按: 作者: 陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授。   陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。   现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90%以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人
用户1410343
2018-03-27
7890
Spark机器学习API之特征处理
问题导读: 1.怎样利用Spark机器学习API进行特征提取? 2.怎样利用Spark机器学习API进行特征选择? 3.Spark机器学习API中的特征选择有哪几种方法? Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。 Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换
用户1410343
2018-03-27
6890
让你真正明白spark streaming
spark streaming介绍 Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、w
用户1410343
2018-03-26
8200
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档