专栏首页相约机器人Spark&AI Summit 2019

Spark&AI Summit 2019

作者 | Marc-Olivier Arsenault

来源 | Medium

编辑 | 代码医生团队

上周举办了最新一期的Spark大会以下是会议不同方面的细分。

重大新闻

Databricks,会议的组织者和Spark的主要贡献者宣布了几个项目:

Koalas

他们宣布了一个名为Koalas的新项目,这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新数据科学家将减少损失。

认为这不仅对新数据科学家有用。数据科学是一个充满脚本的世界。人们使用各种框架在各种环境下创建脚本来执行各种任务。如果主要环境是Spark,那么将调整Pandas的执行环境,并且不必关心它。

koalas是作为一个免费的开源项目。该项目仍处于预发布版本(0.1)

https://github.com/databricks/koalas

Delta Lake

Delta,Databricks的主要组件之一(Spark的付费版本)刚刚开源。对于使用标准版Spark的人来说,这是一个非常好的消息。

有关该产品的所有详细信息,请访问

https://delta.io/

MLFlow

MLFlow Databricks的端到端生命周期模型管理将在5月份升级到1.0版本。

以下组件将添加到现有产品中:

  • MLFlow Workflow,允许在一个管道中打包多步骤项目
  • MLFlow Model Registery,Registery发布模型,版本,查看谁在使用它

对于任何生产模型的人来说,这似乎都是一个有趣的过程。

关于那一个的有趣故事,一位同事在2年前开展了类似的内部项目。它确实符合行业的实际需求。

最佳会谈

以下是我参加过的最喜欢的个人谈话清单:

智能连接算法在规模上对抗偏斜

作者:安德鲁克莱格,Yelp

这个关于如何处理大型数据集中的偏差的讨论。

安德鲁提出了一种非常简单但难以置信的有效方法来处理偏差。TLDR:他建议通过在ID的末尾添加一个随机整数,并在较小的表中创建和创建所有可能的newID,将真正频繁的数据细分为更小的块。

了解更多详情如下:

https://docs.google.com/presentation/d/1AC6yqKjj-hfMYZxGb6mnJ4gn6tv_KscSHG_W7y1Py3A/edit?usp=sharing

Apache Spark数据验证

作者:Patrick Pisciuneri和Doug Balog

他们共享了目标数据验证框架,该框架应尽快开源。该框架允许在生成后进行数据验证。

如果代码有单元测试,数据需要这样的东西。当处理数据集时,有一组假设,创建管道时它们可能是真的,但是在数据“真相”可能稍有不同之后的几个月,然后管道可能会失败数据。即使最糟糕的是,它可能会在没有意识到的情况下处理它而不会失败。这样的框架将有助于保持数据的健全性。

框架可在Github上获得。

https://github.com/target/data-validator

结论

非常喜欢这次会议,销售宣传得到了平衡。大多数技术讲座都是来自业界的纯粹的Spark谈话,没有销售意图。网络很棒。技术含量高品质。恭喜组织者。

他们将在其网站上发布一些演讲视频:

http://databricks.com/sparkaisummit/north-america

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren),作者:代码医生

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 拥有免费数据集的十大优秀网站

    如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。

    代码医生工作室
  • 重回榜首的BERT改进版开源了,千块V100、160GB纯文本的大模型

    BERT 自诞生以来就展现出了卓越的性能,GLUE 排行榜上前几名的模型一度也大多使用 BERT。然而,XLNet 的横空出世,打破了 BERT 的纪录。不过,...

    代码医生工作室
  • Lyft开源L5自动驾驶数据集:55000个人工标注的3D注释框架,还有高清空间语义地图

    这份L5数据集内容丰富,加入了原始传感摄像头和激光雷达收集到的内容,内含55000个人类标注的3D注释框架,还有高清空间语义地图。

    代码医生工作室
  • Result Maps collection does not contain value for XXX 错误

    2020-05-14 11:56:25.887 ERROR 40074 --- [nio-8080-exec-1] o.a.c.c.C.[.[.[/].[dis...

    承苏凯
  • 工具推荐: 汽车CAN总线分析框架CANToolz

    aka YACHT (又一个汽车黑客工具) ? CANToolz 是一个分析控制局域网络CAN(Controller Area Network) 和设备的框架。...

    FB客服
  • 小猿看行业丨推进中国工业大数据应用的四大招

    导读: 作为实现智能制造的重要驱动力,工业大数据可为企业制造与管理流程优化,产品、服务和商业模式创新,以及整个行业生态圈的快速聚合提供有效服务。 针对我国目前工...

    数据猿
  • 【统计学习】为什么同一问题统计专家、机器学习专家解决方法差别那么大?

    乍一看,机器学习和统计似乎是非常相似的,大家几乎不强调这两个学科之间的差异。机器学习和统计有着相同的目标 ——它们都关注数据建模,但他们的使用方法却因为它们文化...

    陆勤_数据人网
  • 继Storm和Spark之后,Hortonworks添加对Kafka的支持

    据Gigaom消息,Hortonworks已经将Apache Kafka加入其Hadoop软件平台的技术预览版中。对比Spark,Kafka的在流行度上可能稍有...

    CSDN技术头条
  • 科普:大数据、人工智能、机器学习与深度学习都是什么?有什么关系?

    导读:大数据、人工智能是目前大家谈论比较多的话题,它们的应用也越来越广泛、与我们的生活关系也越来越密切,影响也越来越深远,其中很多已进入寻常百姓家,如无人机、网...

    华章科技
  • 深度学习果实即将摘尽?11位大牛谈AI的当下(2018)与未来(2019)

    KDnuggets 分别获得了来自 Anima Anandkumar、Andriy Burkov、Pedro Domingos、Ajit Jaokar、Niki...

    机器之心

扫码关注云+社区

领取腾讯云代金券