首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】

问题导读 1.Spark Summit更名为什么名字? 2.Spark集群在哪些名企应用? 3.Spark Summit的相关视频和ppt在哪可以下载? 自2013年首次举办峰会以来,Spark Summits已成为全球最大的专注于Apache Spark的大型数据活动,聚集全球最优秀的工程师,科学家,分析师和高管,分享他们的知识并接受有关此次开放式培训的专业培训。此外,还有数以千计的人学习了Spark,大数据,机器学习,数据工程和数据科学如何为全球的企业和机构提供新的见解。 现在Spark想进一步探索Spark和AI如何共同塑造认知计算领域,以及AI如何通过创新用例在业务中创造新的机会。Spark Summit已经更名为Spark + AI Summit,并将其重点转移到了AI的各个方面:从自驾车到语音和图像识别,以及从智能聊天机器人和新的深度学习框架和技术到高效的机器学习算法,模型和在视觉,言语,深度学习和规模分布式学习方法。 Apache Spark是一个强大的开源处理引擎,以速度,易用性和复杂的分析为基础。它于2009年在加利福尼亚大学伯克利分校启动,现在由独立于供应商的Apache软件基金会开发。自从发布以来,Spark已广泛应用于各行各业的企业迅速采用。雅虎,eBay和Netflix等互联网巨头已经大规模地部署了Spark,在超过8,000个节点的集群上处理了数PB的数据。 Apache Spark也成为最大的大数据开源社区,来自250多个组织的超过1000个贡献者。 Spark Summits每年举行,大家都喜欢下载相关视频和ppt。那么这些视频和ppt官网到底在哪里下载,下面详细介绍。 首先输入下面网址: https://databricks.com/sparkaisummit 我们看到下面图示:

02

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day25】——Spark12

1)原理: 计算能力调度器支持多个队列,每个队列可配置一定的资源量,每个队列采用 FIFO 调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对 同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择一个合适队列:计算每个队列中正在运行的任务数与其应该分得的计算资源之间的 比值(即比较空闲的队列),选择一个该比值最小的队列;然后按以下策略选择该队列中一个作业:按照作业优先级和提交时间顺序选择, 同时考虑用户资源量限制和内存限制 2)优点: (1)计算能力保证。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业 共享该队列中的资源; (2)灵活性。空闲资源会被分配给那些未达到资源使用上限的队列,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,便会分配给他们; (3)支持优先级。队列支持作业优先级调度(默认是FIFO); (4)多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源; (5)基于资源的调度。支持资源密集型作业,允许作业使用的资源量高于默认值,进而可容纳不同资源需求的作业。不过,当前仅支持内存资源的调度。

04

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理 中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少,Spark 2.4 版本的 [Release Note](http://spark.apache.org/releases/spark-release-2-4-0.html) 里面果然一个 Spark Streaming 相关的 ticket 都没有。相比之下,Structured Streaming 有将近十个 ticket 说明。所以各位同学,是时候舍弃 Spark Streaming 转向 Structured Streaming 了,当然理由并不止于此。我们这篇文章就来分析一下 Spark Streaming 的不足,以及Structured Streaming 的设计初衷和思想是怎么样的。文章主要参考今年(2018 年)sigmod 上面的这篇论文:Structured Streaming: A Declarative API for Real-Time

02
领券