前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark&AI Summit 2019

Spark&AI Summit 2019

作者头像
代码医生工作室
发布2019-06-21 17:45:46
5060
发布2019-06-21 17:45:46
举报

作者 | Marc-Olivier Arsenault

来源 | Medium

编辑 | 代码医生团队

上周举办了最新一期的Spark大会以下是会议不同方面的细分。

重大新闻

Databricks,会议的组织者和Spark的主要贡献者宣布了几个项目:

Koalas

他们宣布了一个名为Koalas的新项目,这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新数据科学家将减少损失。

认为这不仅对新数据科学家有用。数据科学是一个充满脚本的世界。人们使用各种框架在各种环境下创建脚本来执行各种任务。如果主要环境是Spark,那么将调整Pandas的执行环境,并且不必关心它。

koalas是作为一个免费的开源项目。该项目仍处于预发布版本(0.1)

https://github.com/databricks/koalas

Delta Lake

Delta,Databricks的主要组件之一(Spark的付费版本)刚刚开源。对于使用标准版Spark的人来说,这是一个非常好的消息。

有关该产品的所有详细信息,请访问

https://delta.io/

MLFlow

MLFlow Databricks的端到端生命周期模型管理将在5月份升级到1.0版本。

以下组件将添加到现有产品中:

  • MLFlow Workflow,允许在一个管道中打包多步骤项目
  • MLFlow Model Registery,Registery发布模型,版本,查看谁在使用它

对于任何生产模型的人来说,这似乎都是一个有趣的过程。

关于那一个的有趣故事,一位同事在2年前开展了类似的内部项目。它确实符合行业的实际需求。

最佳会谈

以下是我参加过的最喜欢的个人谈话清单:

智能连接算法在规模上对抗偏斜

作者:安德鲁克莱格,Yelp

这个关于如何处理大型数据集中的偏差的讨论。

安德鲁提出了一种非常简单但难以置信的有效方法来处理偏差。TLDR:他建议通过在ID的末尾添加一个随机整数,并在较小的表中创建和创建所有可能的newID,将真正频繁的数据细分为更小的块。

了解更多详情如下:

https://docs.google.com/presentation/d/1AC6yqKjj-hfMYZxGb6mnJ4gn6tv_KscSHG_W7y1Py3A/edit?usp=sharing

Apache Spark数据验证

作者:Patrick Pisciuneri和Doug Balog

他们共享了目标数据验证框架,该框架应尽快开源。该框架允许在生成后进行数据验证。

如果代码有单元测试,数据需要这样的东西。当处理数据集时,有一组假设,创建管道时它们可能是真的,但是在数据“真相”可能稍有不同之后的几个月,然后管道可能会失败数据。即使最糟糕的是,它可能会在没有意识到的情况下处理它而不会失败。这样的框架将有助于保持数据的健全性。

框架可在Github上获得。

https://github.com/target/data-validator

结论

非常喜欢这次会议,销售宣传得到了平衡。大多数技术讲座都是来自业界的纯粹的Spark谈话,没有销售意图。网络很棒。技术含量高品质。恭喜组织者。

他们将在其网站上发布一些演讲视频:

http://databricks.com/sparkaisummit/north-america

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档