本文介绍了Apache Zeppelin 0.7.2的中文文档,包括快速入门、教程、动态表单、发表你的段落、自定义Zeppelin主页、升级Zeppelin版本、从源码编译、使用Flink和Spark Clusters安装Zeppelin教程、解释器、概述、解释器安装、解释器依赖管理、解释器的模拟用户、解释员执行Hook(实验)、Alluxio解释器、Beam解释器、BigQuery解释器、Cassandra CQL解释器、Elasticsearch解释器、Flink解释器、Geode/Gemfire OQL解释器、HBase Shell解释器、HDFS文件系统解释器、Hive解释器、Ignite解释器、JDBC通用解释器、Kylin解释器、Lens解释器、Livy解释器、Markdown解释器、Pig解释器、PostgreSQL, HAWQ解释器、Python 2&3解释器、R解释器、Scalding解释器、Scio解释器、Shell解释器、Spark解释器、系统显示、系统基本显示、后端Angular API、前端Angular API、更多。
Chang Stream(变更记录流) 是指collection(数据库集合)的变更事件流,应用程序通过db.collection.watch()这样的命令可以获得被监听对象的实时变更。BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。
导读:大家好,很荣幸跟大家分享 Apache Beam 架构原理及应用实践。讲这门课之前大家可以想想,从进入 IT 行业以来,不停的搬运数据,不管职务为前端,还是后台服务器端开发。随着这两年科技的发展,各种数据库,数据源,应运而生,大数据组件,框架也是千变万化,从 Hadoop 到现在的 Spark、Flink,数据库从先前的 oracle、MySQL 到现在的 NOSQL,不断延伸。那么有没有统一的框架,统一的数据源搬砖工具呢?
我们现在从讨论编程模型和 API 转向实现它们的系统。模型和 API 允许用户描述他们想要计算的内容。在规模上准确地运行计算需要一个系统——通常是一个分布式系统。
在过去的几年里,数据工程领域的重要性突飞猛进,为加速创新和进步打开了大门——从今天开始,越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。“第一次浪潮”包括 ETL、OLAP 和关系数据仓库,它们是商业智能 (BI) 生态系统的基石,无法应对大数据的4V[1]的指数增长。由于面向 BI 的栈的潜力有限,我们随后见证了“第二次浪潮”:由于 Hadoop 生态系统(允许公司横向扩展其数据平台)和 Apache Spark(为大规模高效的内存数据处理打开了大门)。
AI前线导读:本文是 **Apache Beam实战指南系列文章** 的第二篇内容,将重点介绍 Apache Beam与Flink的关系,对Beam框架中的KafkaIO和Flink源码进行剖析,并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka和Flink。系列文章第一篇回顾Apache Beam实战指南之基础入门
Beam可以解决什么问题?当MapReduce作业从Hadoop迁移到Spark或Flink,就需要大量的重构。Dataflow试图成为代码和执行运行时环境之间的一个抽象层。代码用Dataflow SDK实施后,会在多个后端上运行,比如Flink和Spark。Beam支持Java和Python,与其他语言绑定的机制在开发中。它旨在将多种语言、框架和SDK整合到一个统一的编程模型。
【导读】本文利用TensorFlow构建了一个用于产品推荐的WALS协同过滤模型。作者从抓取数据开始对模型进行了详细的解读,并且分析了几种推荐中可能隐藏的情况及解决方案。 作者 | Lak Laksh
作者 | Fabio Hiroki 译者 | 明知山 策划 | 丁晓昀 在本文中,我们将介绍 Apache Beam,这是一个强大的批处理和流式处理开源项目,eBay 等大公司用它来集成流式处理管道,Mozilla 用它来在系统之间安全地移动数据。 概 览 Apache Beam 是一种处理数据的编程模型,支持批处理和流式处理。 你可以使用它提供的 Java、Python 和 Go SDK 开发管道,然后选择运行管道的后端。 Apache Beam 的优势 Beam 的编程模型 内
翻译自 LinkedIn Unifies Stream and Batch Processing with Apache Beam 。
AI 前线导读:本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。 更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)
谷歌昨日宣布,Apache Beam 在经过近一年的孵化后终于从 Apache 孵化器毕业,现在已经是一个成熟的顶级 Apache 项目。这一成就直接反应了社区为把 Beam 转变为开放、专业、社区驱动的项目所付出的努力。 11个月前,谷歌以及一些合作伙伴向 Apachee 软件基金会捐赠了大量代码,从而得以开始孵化 Beam 项目。这些代码的大部分来自谷歌的 Cloud Dataflow SDK,是开发者用来编写流处理(streaming)和批处理管道(batch pinelines)的库,可以在任何支持
关于特征工程,业界有这么一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的孵化项目,被认为是继MapReduce、GFS和BigQuery等之后,Google在大数据处理领域对开源社区的又一贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式,为无限、乱序,Web-Scale的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现。本文主要介绍Apac
在最新版本的Flink 1.10中,PyFlink支持Python用户定义的函数,使您能够在Table API和SQL中注册和使用这些函数。但是,听完所有这些后,您可能仍然想知道PyFlink的架构到底是什么?作为PyFlink的快速指南,本文将回答这些问题。
人工智能不仅有光明的前景,而且走在了商业的前沿。人工智能显然是机器人、电子商务、分析和云计算管理的一个构成因素。即使是人才挑选、定制化市场营销和许多其他业务,现在也都依赖于人工智能的解决方案。
Flink是Apache的一个顶级项目,Apache Flink 是一个开源的分布式流处理和批处理系统。Flink 的核心是在数据流上提供数据分发、通信、具备容错的分布式计算。同时,Flink 在流处理引擎上构建了批处理引擎,原生支持了迭代计算、内存管理和程序优化。
AI 前线导读: 一年一度由世界知名科技媒体 InfoWorld 评选的 Bossie Awards 于 9 月 26 日公布,本次 Bossie Awards 评选出了最佳数据库与数据分析平台奖、最佳软件开发工具奖、最佳机器学习项目奖等多个奖项。在最佳开源数据库与数据分析平台奖中,Spark 和 Beam 再次入选,连续两年入选的 Kafka 这次意外滑铁卢,取而代之的是新兴项目 Pulsar;这次开源数据库入选的还有 PingCAP 的 TiDB;另外Neo4依然是图数据库领域的老大,但其开源版本只能单机无法部署分布式,企业版又费用昂贵的硬伤,使很多初入图库领域的企业望而却步,一直走低调务实作风的OrientDB已经慢慢成为更多用户的首选。附:30分钟入门图数据库(精编版) Bossie Awards 是知名英文科技媒体 InfoWorld 针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象,由 InfoWorld 编辑独立评选,目前已经持续超过十年,是 IT 届最具影响力和含金量奖项之一。 一起来看看接下来你需要了解和学习的数据库和数据分析工具有哪些。
我们的产品需要对来自不同数据源的大数据进行采集,从数据源的多样化以及处理数据的低延迟与可伸缩角度考虑,需要选择适合项目的大数据流处理平台。 我最初列出的候选平台包括Flume、Flink、Kafka Streaming以及Spark Streaming。然而对产品架构而言,这个技术选型的决策可谓举足轻重,倘若选择不当,可能会导致较大的修改成本,须得慎之又慎。 我除了在项目中曾经使用过Flume、Kafka以及Spark Streaming之外,对其余平台并不甚了解。即便是用过的这几个平台,也了解得比较
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
为生产而构建的机器学习系统需要有效地培训、部署和更新机器学习模型。在决定每个系统的体系结构时,必须考虑各种因素。这篇博文的部分内容是基于Coursera和GCP(谷歌云平台)关于构建生产机器学习系统的课程。下面,我将列出构建可伸缩机器学习系统时需要考虑的一些问题:
如果要将AI嵌入到企业计算系统中,企业必须重新调整其机器学习(ML)开发流程以使得数据工程师、数据科学家和ML工程师可以在管道中自动化开发,集成,测试和部署。本博客介绍了与机器学习平台进行持续集成(CI),持续交付(CD)和持续培训(CT)的平台和方法,并详细介绍了如何通过特征存储(Feature Store)执行CI / CD机器学习操作(MLOps)。以及特征存储如何将整体的端到端ML管道重构为特征工程和模型训练管道。
Apache Beam 是什么? Beam 是一个分布式数据处理框架,谷歌在今年初贡献出来的,是谷歌在大数据处理开源领域的又一个巨大贡献。 数据处理框架已经很多了,怎么又来一个,Beam有什么优势? 就是因为分布式数据处理技术现在太多了,让人目眩,所以Beam要解决这个问题。 大数据处理领域发展得红红火火,新技术不断,有个笑话: 一个程序员抱怨这个框架的API不好用,同事安慰说:别急,再等几分钟就有新框架出来了,应该会更好。 Hadoop MapReduce、Spark、Storm、Flink、Apex …
Apache Beam: Portability in the times of Real Time Streaming -- Pablo Estrada(Google)
为了方便用户为机器学习进行数据预处理,Google今天发布了tf.Transform。 以下内容来自Google Research Blog,量子位编译 每当要把机器学习用于真实的数据集时,我们都需要花很多精力来对数据进行预处理,把它们变成适用于神经网络等机器学习模型的格式。这个预处理过程有多种形式,包括格式之间的转换,或者标记化、词干文本和形成词汇,以及执行归一化等各种数值操作。 Google今天发布的tf.Transform是一个Tensorflow库,让用户可以使用大规模数据处理框架来定义预处理流程并
技术雷达是ThoughtWorks每半年发布一期的技术趋势报告,它不仅是一份持续的技术成熟度评估,其产生还源于ThoughtWorks另一个更大宏大的使命—IT革命。我们一直深信,IT行业从定位、价值、实践和技术都会发生巨大的变革。然而任何宏观的变革,都会有一些微小的信号,我们需要持续关注这些微小的改变,这也就是技术雷达的由来。
当我开始学习连接时,这是一个令人生畏的话题;LEFT、OUTER、SEMI、INNER、CROSS:连接的语言是富有表现力和广泛的。再加上流带来的时间维度,你会发现这似乎是一个具有挑战性的复杂话题。好消息是,连接实际上并不是一开始看起来那么可怕的野兽,它没有令人畏惧的尖牙。与许多其他复杂话题一样,一旦你理解了连接的核心思想和主题,建立在这些基础之上的更广泛的景观突然变得更加易于访问。所以请加入我,我们一起探索这个迷人的话题…连接。
最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。
在 0.11.0 中,我们默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件 listing 的性能。在reader方面,用户需要将其设置为 hoodie.metadata.enable = true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果无需使用此功能,可以通过额外设置这个配置 hoodie.metadata.enable = false 像以前一样使用 Hudi。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
Lambda 架构已经成为一种流行的架构风格,它通过使用批处理和流式处理的混合方法来保证数据处理的速度和准确性。但它也有一些缺点,比如额外的复杂性和开发 / 运维开销。LinkedIn 高级会员有一个功能,就是可以查看谁浏览过你的个人资料 (Who Viewed Your Profile,WVYP),这个功能曾在一段时间内采用了 Lambda 架构。支持这一功能的后端系统在过去的几年中经历了几次架构迭代:从 Kafka 客户端处理单个 Kafka 主题开始,最终演变为具有更复杂处理逻辑的 Lambda 架构。然而,为了追求更快的产品迭代和更低的运维开销,我们最近把它变成无 Lambda 的。在这篇文章中,我们将分享一些在采用 Lambda 架构时的经验教训、过渡到无 Lambda 时所做的决定,以及经历这个过渡所必需的转换工作。
如果无法进行测量,那就无法进行管理。正如软件工程师需要全面了解应用程序和基础架构的性能情况一样,数据工程师需要全面了解数据系统的性能情况。换句话说,数据工程师需要数据可观测性。
今天我们推出了TensorFlow数据验证(TensorFlow Data Validation, TFDV),这是一个可帮助开发人员理解、验证和监控大规模机器学习数据的开源库。学术界和工业界都非常关注机器学习算法及其性能,但如果输入数据是错误的,所有这些优化工作都白费。理解和验证数据对于少量数据来说似乎是一项微不足道的任务,因为它们可以手动检查。然而,在实践中,数据太大,难以手动检查,并且数据通常大块连续地到达,因此有必要自动化和规模化数据分析、验证和监视任务。
TensorFlow Extended: An end-to-end machine learning platform for TensorFlow--Robert Crowe(Google)
试验 Azure DevOps 随着 Azure DevOps 生态系统的不断发展,我们的团队正在更多的使用它,并取得了成功。这些服务包含一组托管服务,包括托管 Git 代码仓库、构建和部署流水线、自动化测试工具、待办工作管理工具和构件仓库。我们已经看到我们的团队在使用该平台时获得了良好的体验,这意味着 Azure DevOps正在走向成熟。我们特别喜欢它的灵活性;它甚至允许用户使用来自不同供应商的服务。例如,你可以在使用 Azure DevOps的流水线服务的同时也使用一个外部 Git 数据仓库。我们的团
在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面,用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关,您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。
今天为大家推荐一些翻译整理的大数据相关的学习资源,希望能给大家带来价值。
Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件(例如CSV或TSV文件)相比,Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。
在使用BigData大约8年以上之后,我遇到了大量的项目。Esp Apache的运动对于BigData域非常强大。每个人都会提出一个针对特定解决方案的项目。但是,由于有这么多项目出现,我找不到一个可以查看它们的地方。所以,这就是这个页面背后的灵感。一站式,查看所有Apache BigData项目。当然,这个页面需要不断更新。如果您发现任何项目缺失,请发表评论
在 Twitter 上,我们每天都要实时处理大约 4000 亿个事件,生成 PB 级的数据。我们使用的数据的事件源多种多样,来自不同的平台和存储系统,例如 Hadoop、Vertica、Manhattan 分布式数据库、Kafka、Twitter Eventbus、GCS、BigQuery 和 PubSub。
我们的一个客户遇到了一个 MySQL 问题,他们有一张大表,这张表有 20 多亿条记录,而且还在不断增加。如果不更换基础设施,就有磁盘空间被耗尽的风险,最终可能会破坏整个应用程序。而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。我们希望有这么一个解决方案,既能解决这些问题,又不需要引入高成本的维护时间窗口,导致应用程序无法运行以及客户无法使用系统。在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。
Fortify 软件安全研究团队将前沿研究转化为安全情报,为 Fortify 产品组合提供支持,包括 Fortify 静态代码分析器 (SCA) 和 Fortify WebInspect。如今,Fortify 软件安全内容支持 30 种语言的 1,399 个漏洞类别,涵盖超过 100 万个单独的 API。
使用 Kafka,如何成功迁移 SQL 数据库中超过 20 亿条记录?我们的一个客户遇到了一个 MySQL 问题,他们有一张大表,这张表有 20 多亿条记录,而且还在不断增加。如果不更换基础设施,就有磁盘空间被耗尽的风险,最终可能会破坏整个应用程序。而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。我们希望有这么一个解决方案,既能解决这些问题,又不需要引入高成本的维护时间窗口,导致应用程序无法运行以及客户无法使用系统。在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。
大数据处理其实经常被很多人低估,缺乏正确的处理体系,其实,如果没有高质量的数据处理流程,人工智能将只有人工而没有智能。现在的趋势是数据体量不断上涨,团队却低估了规模所带来的复杂度。大数据领域泰斗级人物Jesse Anderson曾做过研究,一个组织架构比较合理的人工智能团队,数据处理工程师需要占团队总人数的4/5,然而很多团队还没有认识到这点。大数据处理涉及大量复杂因素,而Apache Beam恰恰可以降低数据处理的难度,它是一个概念产品,所有使用者都可以根据它的概念继续拓展。
GH-Archive通过从GitHub REST API中摄取大部分这些事件,从GitHub记录大量数据。这些事件以GSON格式从GitHub发送到GH-Archive,称为有效负载。以下是编辑问题时收到的有效负载示例:
Data API还可以从现成的文件(比如CSV文件)、固定大小的二进制文件、使用TensorFlow的TFRecord格式的文件(支持大小可变的记录)读取数据。TFRecord是一个灵活高效的二进制格式,基于Protocol Buffers(一个开源二进制格式)。Data API还支持从SQL数据库读取数据。另外,许多开源插件也可以用来从各种数据源读取数据,包括谷歌的BigQuery。
最后,该数据被加载到数据库中。在当前的技术时代,“数据”这个词非常重要,因为大多数业务都围绕着数据、数据流、数据格式等运行。现代应用程序和工作方法需要实时数据来进行处理,为了满足这一目的,市场上有各种各样的ETL工具。
Paper1: https://research.google.com/pubs/archive/35650.pdf
exchange是要打造一个轻量级,高扩展性的数据交换平台,支持对结构化及无结构化的异构数据源之间的数据传输,在应用层上具有数据权限管控、节点服务高可用和多租户资源隔离等业务特性,而在数据层上又具有传输架构多样化、模块插件化和组件低耦合等架构特点。
领取专属 10元无门槛券
手把手带您无忧上云