作者 | Marc-Olivier Arsenault
来源 | Medium
编辑 | 代码医生团队
上周举办了最新一期的Spark大会以下是会议不同方面的细分。
重大新闻
Databricks,会议的组织者和Spark的主要贡献者宣布了几个项目:
Koalas
他们宣布了一个名为Koalas的新项目,这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新数据科学家将减少损失。
认为这不仅对新数据科学家有用。数据科学是一个充满脚本的世界。人们使用各种框架在各种环境下创建脚本来执行各种任务。如果主要环境是Spark,那么将调整Pandas的执行环境,并且不必关心它。
koalas是作为一个免费的开源项目。该项目仍处于预发布版本(0.1)
https://github.com/databricks/koalas
Delta Lake
Delta,Databricks的主要组件之一(Spark的付费版本)刚刚开源。对于使用标准版Spark的人来说,这是一个非常好的消息。
有关该产品的所有详细信息,请访问
https://delta.io/
MLFlow
MLFlow Databricks的端到端生命周期模型管理将在5月份升级到1.0版本。
以下组件将添加到现有产品中:
对于任何生产模型的人来说,这似乎都是一个有趣的过程。
关于那一个的有趣故事,一位同事在2年前开展了类似的内部项目。它确实符合行业的实际需求。
最佳会谈
以下是我参加过的最喜欢的个人谈话清单:
智能连接算法在规模上对抗偏斜
作者:安德鲁克莱格,Yelp
这个关于如何处理大型数据集中的偏差的讨论。
安德鲁提出了一种非常简单但难以置信的有效方法来处理偏差。TLDR:他建议通过在ID的末尾添加一个随机整数,并在较小的表中创建和创建所有可能的newID,将真正频繁的数据细分为更小的块。
了解更多详情如下:
https://docs.google.com/presentation/d/1AC6yqKjj-hfMYZxGb6mnJ4gn6tv_KscSHG_W7y1Py3A/edit?usp=sharing
Apache Spark数据验证
作者:Patrick Pisciuneri和Doug Balog
他们共享了目标数据验证框架,该框架应尽快开源。该框架允许在生成后进行数据验证。
如果代码有单元测试,数据需要这样的东西。当处理数据集时,有一组假设,创建管道时它们可能是真的,但是在数据“真相”可能稍有不同之后的几个月,然后管道可能会失败数据。即使最糟糕的是,它可能会在没有意识到的情况下处理它而不会失败。这样的框架将有助于保持数据的健全性。
框架可在Github上获得。
https://github.com/target/data-validator
结论
非常喜欢这次会议,销售宣传得到了平衡。大多数技术讲座都是来自业界的纯粹的Spark谈话,没有销售意图。网络很棒。技术含量高品质。恭喜组织者。
他们将在其网站上发布一些演讲视频:
http://databricks.com/sparkaisummit/north-america