开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Apache Beam | Python | Dataflow -如何使用不同的键连接BigQuery的集合？

Apache Beam是一个开源的分布式数据处理框架，它提供了一种统一的编程模型，可以在不同的执行引擎上运行，包括Google Cloud Dataflow。在Python中使用Apache Beam和Dataflow连接BigQuery的集合，可以按照以下步骤进行：

导入必要的库和模块：

import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions

创建一个Pipeline对象，并设置相关的PipelineOptions：

options = PipelineOptions()
p = beam.Pipeline(options=options)

定义一个处理数据的函数，用于将输入数据转换为BigQuery表的行：

def process_data(element):
    # 处理数据的逻辑
    # 返回一个包含BigQuery表的行的字典
    return row

使用beam.io.ReadFromText读取输入数据，并使用beam.Map将数据转换为BigQuery表的行：

input_data = p | 'ReadInputData' >> beam.io.ReadFromText('input.txt')
output_data = input_data | 'ProcessData' >> beam.Map(process_data)

使用beam.io.WriteToBigQuery将转换后的数据写入BigQuery表：

output_data | 'WriteToBigQuery' >> beam.io.WriteToBigQuery(
    table='project_id:dataset.table',
    schema='field1:STRING, field2:INTEGER, ...',
    create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED,
    write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND
)

在上述代码中，project_id:dataset.table表示目标BigQuery表的位置，schema定义了表的字段和类型，create_disposition指定了如果表不存在时的创建策略，write_disposition指定了写入数据时的策略。

推荐的腾讯云相关产品是腾讯云数据处理服务（Tencent Cloud DataWorks），它提供了类似于Apache Beam的数据处理能力，并且与腾讯云的其他产品有良好的集成。您可以通过以下链接了解更多信息：腾讯云数据处理服务。

相关搜索:Dataflow中的自定义Apache Beam Python版本使用Apache Beam的dataflow sdk写入BigTable时捕获的NullPointerException 在使用Python语言编写的Apache-Beam管道中提供BigQuery凭据如何将numpy导入运行在GCP Dataflow上的Apache Beam管道？如何使用BigQuery存储读取API定义Apache Beam中的最大流数如何将我的已挑选的ML模型从GCS加载到Dataflow/Apache beam Mongoose使用不同的外键连接两个不同的集合如何在Apache Beam中通过键在静态查找表上以流模式连接PCollection (Python)如何从Google Cloud Functions部署与PostgreSQL (beam-nuggets)连接的Google Cloud Dataflow 使用python的google cloud dataflow mysql io连接器如何在Kubernetes的Flink集群上运行Apache Beam Python管道？使用Apache Beam Python SDK将文件写入Parquet中的动态目标使用python在apache beam中根据条件调用特定的pubsub主题如何在python中(单元)测试apache-beam中的流管道？Apache Beam - Python :如何通过累积获得PCollection的前10个元素？如何通过python读取apache beam (数据流)中的JSON文件？有没有办法将文件从本地机器复制到python + apache beam中的Dataflow线束实例如何在Apache Beam中使用方解石SQL中的最小函数使用Apache Beam python创建google cloud数据流模板时的RuntimeValueProviderError 使用Python的Apache Beam ReadFromKafka在Flink中运行，但没有发布的消息通过

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

用MongoDB Change Streams 在BigQuery中复制数据

Chang Stream(变更记录流) 是指collection(数据库集合)的变更事件流，应用程序通过db.collection.watch()这样的命令可以获得被监听对象的实时变更。BigQuery是Google推出的一项Web服务，该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。

02

Apache Beam 初探

Beam可以解决什么问题？当MapReduce作业从Hadoop迁移到Spark或Flink，就需要大量的重构。Dataflow试图成为代码和执行运行时环境之间的一个抽象层。代码用Dataflow SDK实施后，会在多个后端上运行，比如Flink和Spark。Beam支持Java和Python，与其他语言绑定的机制在开发中。它旨在将多种语言、框架和SDK整合到一个统一的编程模型。

01

流式系统：第五章到第八章

我们现在从讨论编程模型和 API 转向实现它们的系统。模型和 API 允许用户描述他们想要计算的内容。在规模上准确地运行计算需要一个系统——通常是一个分布式系统。

01

【干货】TensorFlow协同过滤推荐实战

【导读】本文利用TensorFlow构建了一个用于产品推荐的WALS协同过滤模型。作者从抓取数据开始对模型进行了详细的解读，并且分析了几种推荐中可能隐藏的情况及解决方案。作者 | Lak Laksh

Apache Beam 架构原理及应用实践

导读：大家好，很荣幸跟大家分享 Apache Beam 架构原理及应用实践。讲这门课之前大家可以想想，从进入 IT 行业以来，不停的搬运数据，不管职务为前端，还是后台服务器端开发。随着这两年科技的发展，各种数据库，数据源，应运而生，大数据组件，框架也是千变万化，从 Hadoop 到现在的 Spark、Flink，数据库从先前的 oracle、MySQL 到现在的 NOSQL，不断延伸。那么有没有统一的框架，统一的数据源搬砖工具呢？

02

大数据最新技术：快速了解分布式计算:Google Dataflow

问题导读 1.Dataflow当前的API支持什么语言？ 2.相比原生的map-reduce模型，Dataflow哪些优点？ 3.Dataflow与Cascading、Spark有什么区别和联系？介绍 Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法，集成了许多内部技术，如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。Dataflow当前的API还只有Java版本（其实Flume本身是提供Java/C++/Python多种接

09

Thoughtworks第26期技术雷达——平台象限

试验 Azure DevOps 随着 Azure DevOps 生态系统的不断发展，我们的团队正在更多的使用它，并取得了成功。这些服务包含一组托管服务，包括托管 Git 代码仓库、构建和部署流水线、自动化测试工具、待办工作管理工具和构件仓库。我们已经看到我们的团队在使用该平台时获得了良好的体验，这意味着 Azure DevOps正在走向成熟。我们特别喜欢它的灵活性；它甚至允许用户使用来自不同供应商的服务。例如，你可以在使用 Azure DevOps的流水线服务的同时也使用一个外部 Git 数据仓库。我们的团

05

BigData | Apache Beam的诞生与发展

Paper1: https://research.google.com/pubs/archive/35650.pdf

01

通过 Java 来学习 Apache Beam

作者 | Fabio Hiroki 译者 | 明知山策划 | 丁晓昀 ‍在本文中，我们将介绍 Apache Beam，这是一个强大的批处理和流式处理开源项目，eBay 等大公司用它来集成流式处理管道，Mozilla 用它来在系统之间安全地移动数据。‍ 概览 Apache Beam 是一种处理数据的编程模型，支持批处理和流式处理。你可以使用它提供的 Java、Python 和 Go SDK 开发管道，然后选择运行管道的后端。 Apache Beam 的优势 Beam 的编程模型内

03

Apache Beam：下一代的数据处理标准

Apache Beam（原名Google DataFlow）是Google在2016年2月份贡献给Apache基金会的孵化项目，被认为是继MapReduce、GFS和BigQuery等之后，Google在大数据处理领域对开源社区的又一贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限、乱序，Web-Scale的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现。本文主要介绍Apac

谷歌开源的大数据处理项目 Apache Beam

Apache Beam 是什么？ Beam 是一个分布式数据处理框架，谷歌在今年初贡献出来的，是谷歌在大数据处理开源领域的又一个巨大贡献。数据处理框架已经很多了，怎么又来一个，Beam有什么优势？就是因为分布式数据处理技术现在太多了，让人目眩，所以Beam要解决这个问题。大数据处理领域发展得红红火火，新技术不断，有个笑话：一个程序员抱怨这个框架的API不好用，同事安慰说：别急，再等几分钟就有新框架出来了，应该会更好。 Hadoop MapReduce、Spark、Storm、Flink、Apex …

Apache Beam研究

Apache Beam是Google开源的，旨在统一批处理和流处理的编程范式，核心思想是将批处理和流处理都抽象成Pipeline、Pcollection、PTransform三个概念。Apache Beam本身是不具备计算功能的，数据的交换和计算都是由底层的工作流引擎（Apache Apex, Apache Flink, Apache Spark, and Google Cloud Dataflow）完成，由各个计算引擎提供Runner供Apache Beam调用，而Apache Beam提供了Java、Python、Go语言三个SDK供开发者使用。

01

Apache Beam 大数据处理一站式分析

大数据处理其实经常被很多人低估，缺乏正确的处理体系，其实，如果没有高质量的数据处理流程，人工智能将只有人工而没有智能。现在的趋势是数据体量不断上涨，团队却低估了规模所带来的复杂度。大数据领域泰斗级人物Jesse Anderson曾做过研究，一个组织架构比较合理的人工智能团队，数据处理工程师需要占团队总人数的4/5，然而很多团队还没有认识到这点。大数据处理涉及大量复杂因素，而Apache Beam恰恰可以降低数据处理的难度，它是一个概念产品，所有使用者都可以根据它的概念继续拓展。

04

Beam-介绍

Beam提供了一套统一的API来处理两种数据处理模式（批和流），让我们只需要将注意力专注于在数据处理的算法上，而不用再花时间去对两种数据处理模式上的差异进行维护。

02

超详细的大数据学习资源推荐（上）

今天为大家推荐一些翻译整理的大数据相关的学习资源，希望能给大家带来价值。

08

大数据框架—Flink与Beam

Flink是Apache的一个顶级项目，Apache Flink 是一个开源的分布式流处理和批处理系统。Flink 的核心是在数据流上提供数据分发、通信、具备容错的分布式计算。同时，Flink 在流处理引擎上构建了批处理引擎，原生支持了迭代计算、内存管理和程序优化。

02

使用Java部署训练好的Keras深度学习模型

Keras库为深度学习提供了一个相对简单的接口，使神经网络可以被大众使用。然而，我们面临的挑战之一是将Keras的探索模型转化为产品模型。Keras是用Python编写的，直到最近，这个语言之外的支持还很有限。虽然Flask，PySpark和Cloud ML等工具可以直接在Python中产品化模型，但我通常更喜欢使用Java来部署模型。

04

现代流式计算的基石：Google DataFlow

今天这篇继续讲流式计算。继上周阿里巴巴收购 Apache Flink 之后，Flink 的热度再度上升。毫无疑问，Apache Flink 和 Apache Spark 现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Flink 的火热原因的时候总结了下面两点：

02

Apache下流处理项目巡览

我们的产品需要对来自不同数据源的大数据进行采集，从数据源的多样化以及处理数据的低延迟与可伸缩角度考虑，需要选择适合项目的大数据流处理平台。我最初列出的候选平台包括Flume、Flink、Kafka Streaming以及Spark Streaming。然而对产品架构而言，这个技术选型的决策可谓举足轻重，倘若选择不当，可能会导致较大的修改成本，须得慎之又慎。我除了在项目中曾经使用过Flume、Kafka以及Spark Streaming之外，对其余平台并不甚了解。即便是用过的这几个平台，也了解得比较

06

Apache Beam WordCount编程实战及源码解读

本文介绍了如何使用 Apache Beam 实现 WordCount 程序，通过一个简单的 Maven 项目结构，展示了如何通过 Apache Beam 及其相关依赖和配置，使用 Spark、Flink 和 Apex 等大数据框架来运行并执行 WordCount 程序。

06

InfoWorld最佳开源大数据工具奖，看看有哪些需要了解学习的新晋工具

一年一度由世界知名科技媒体InfoWorld评选的Bossie Awards于2016年9月21日公布，评选了最佳大数据工具奖，最佳大数据应用奖，最佳网络与安全奖等多个奖项。在最佳开源大数据工具奖中，

06

听程序员界郭德纲怎么“摆”大数据处理

大规模数据处理技术如果从MapReduce论文算起，已经前后跨越了十六年。我们先沿着时间线看一下大规模数据处理的重要技术和它们产生的年代。后面从MapReduce到Spark、Flink、Beam的演进特性来看大规模数据处理计算引擎应该具备什么样的能力。

02

Google发布tf.Transform，让数据预处理更简单

为了方便用户为机器学习进行数据预处理，Google今天发布了tf.Transform。以下内容来自Google Research Blog，量子位编译每当要把机器学习用于真实的数据集时，我们都需要花很多精力来对数据进行预处理，把它们变成适用于神经网络等机器学习模型的格式。这个预处理过程有多种形式，包括格式之间的转换，或者标记化、词干文本和形成词汇，以及执行归一化等各种数值操作。 Google今天发布的tf.Transform是一个Tensorflow库，让用户可以使用大规模数据处理框架来定义预处理流程并

09

谷歌宣布开源 Apache Beam，布局下一代大数据处理平台

谷歌昨日宣布，Apache Beam 在经过近一年的孵化后终于从 Apache 孵化器毕业，现在已经是一个成熟的顶级 Apache 项目。这一成就直接反应了社区为把 Beam 转变为开放、专业、社区驱动的项目所付出的努力。 11个月前，谷歌以及一些合作伙伴向 Apachee 软件基金会捐赠了大量代码，从而得以开始孵化 Beam 项目。这些代码的大部分来自谷歌的 Cloud Dataflow SDK，是开发者用来编写流处理（streaming）和批处理管道（batch pinelines）的库，可以在任何支持

08

Comparison of Apache Stream Processing Frameworks: Part 2

In the previous post we went through the necessary theory and also introduced popular streaming framework from Apache landscape - Storm, Trident, Spark Streaming, Samza and Flink. Today, we’re going to dig a little bit deeper and go through topics like fau

04

机器学习人工学weekly-12/24/2017

1. DeepMind发布2017年的回顾blog，总结今年在多个方面取得的进展，比如AlphaGo Zero，Parallel WaveNet（比最早的WaveNet快了100倍，用来产生Google Assistant的语音），基于进化算法的增强学习和神经网络架构搜索，基于概率分布的增强学习（那篇paper很值得一读），已经基于imagination的model-based增强学习（跟Yann LeCun说的predictive learning有点像）等等 blog链接：https://deepmin

05

大数据凉了？No，流式计算浪潮才刚刚开始！

AI 前线导读：本文重点讨论了大数据系统发展的历史轨迹，行文轻松活泼，内容通俗易懂，是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》，在探讨流式系统方面本书是市面上难得一见的深度书籍，非常值得学习。更多干货内容请关注微信公众号“AI 前线”（ID：ai-front）

06

Stream 主流流处理框架比较(2)

在上篇文章中，我们过了下基本的理论，也介绍了主流的流处理框架：Storm，Trident，Spark Streaming，Samza和Flink。今天咱们来点有深度的主题，比如，容错，状态管理或者性能。除此之外，我们也将讨论开发分布式流处理应用的指南，并给出推荐的流处理框架。

02

没有三年实战经验，我是如何在谷歌云专业数据工程师认证中通关的

注：本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新，放在了Extras的部分。

05

流计算和数据库表的关联

前面的那篇文章《再谈流计算的基本概念》提到了 Dataflow 模型，这个模型从更高的维度去看待看似隔离的批处理和流处理过程，把批处理过程认为是流处理过程的特例。基于这个模型，诞生了Spark Structure Streaming、Flink 和 Apache Beam 等一系列工具。

08

谷歌推出 Bigtable 联邦查询，实现零 ETL 数据分析

作者 | Steef-Jan Wiggers 译者 | 明知山策划 | 丁晓昀最近，谷歌宣布 Bigtable 联邦查询普遍可用，用户通过 BigQuery 可以更快地查询 Bigtable 中的数据。此外，查询无需移动或复制所有谷歌云区域中的数据，增加了联邦查询并发性限制，从而缩小了运营数据和分析数据之间长期存在的差距。 BigQuery 是谷歌云的无服务器、多云数据仓库，通过将不同来源的数据汇集在一起来简化数据分析。Cloud Bigtable 是谷歌云的全托管 NoSQL 数据库，主要用

03

机器学习人工学weekly-12/24/2017

1. DeepMind发布2017年的回顾blog，总结今年在多个方面取得的进展，比如AlphaGo Zero，Parallel WaveNet（比最早的WaveNet快了100倍，用来产生Google Assistant的语音），基于进化算法的增强学习和神经网络架构搜索，基于概率分布的增强学习（那篇paper很值得一读），已经基于imagination的model-based增强学习（跟Yann LeCun说的predictive learning有点像）等等 blog链接：https://deepmin

09

Apache Beam实战指南 | 玩转KafkaIO与Flink

AI前线导读：本文是 **Apache Beam实战指南系列文章** 的第二篇内容，将重点介绍 Apache Beam与Flink的关系，对Beam框架中的KafkaIO和Flink源码进行剖析，并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka和Flink。系列文章第一篇回顾Apache Beam实战指南之基础入门

02

流式系统：第九章到第十章

当我开始学习连接时，这是一个令人生畏的话题；LEFT、OUTER、SEMI、INNER、CROSS：连接的语言是富有表现力和广泛的。再加上流带来的时间维度，你会发现这似乎是一个具有挑战性的复杂话题。好消息是，连接实际上并不是一开始看起来那么可怕的野兽，它没有令人畏惧的尖牙。与许多其他复杂话题一样，一旦你理解了连接的核心思想和主题，建立在这些基础之上的更广泛的景观突然变得更加易于访问。所以请加入我，我们一起探索这个迷人的话题…连接。

01

大数据学习资源汇总

关系数据库管理系统（RDBMS） SQLServer：世界最有活力的数据库； MySQL：世界最流行的开源数据库； PostgreSQL：世界最先进的开源数据库； Oracle 数据库：对象-关系型数据库管理系统。框架 Apache Hadoop：分布式处理架构，结合了 MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）； Tigon：高吞吐量实时流处理框架。分布式编程 AddThis Hydra ：最初在AddThis上开发的分布式数据处理和存储系统；

实时流处理Storm、Spark Streaming、Samza、Flink对比

分布式流处理需求日益增加，包括支付交易、社交网络、物联网（IOT）、系统监控等。业界对流处理已经有几种适用的框架来解决，下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图（DAG）。 DAG是任务链的图形化表示，我们用它来描述流处理作业的拓扑。如下图，数据从sources流经处理任务链到sinks。单机可以运行DAG，但本篇文章主要聚焦在多台机器上运行D

05

Github 项目推荐 | TensorFlow 的模型分析工具 —— TFMA

TFMA 是一个用于评估 TensorFlow 模型的库，它可以让用户使用 Trainer 里定义的指标以分布式方式评估大量数据的模型。这些指标也可以在不同的数据片里计算，其结果可以在 Jupyter Notebooks 里可视化。

02

LinkedIn 使用 Apache Beam 统一流和批处理

翻译自 LinkedIn Unifies Stream and Batch Processing with Apache Beam 。

01

如何确保机器学习最重要的起始步骤"特征工程"的步骤一致性？

关于特征工程，业界有这么一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。

02

【钱塘号专栏】2016年是大数据风起云涌的一年

2016年是大数据风起云涌的一年。没人知道2017年将发生什么，但这不会阻止我们对新的一年作出各种预测。以下是最具有轰动效应的一些项目、事件和趋势，它们使2016年成为了大数据年。商业智能（BI）领袖衰落 2016年2月，红极一时的BI和可视化工具提供商Tableau发布财报，业绩令人大失所望，其市值在一天之内被腰斩。这预示着2016年的BI市场将动荡不安。几个月后，风暴再起，Qlik Technologies的股价暴跌一半多，在2016年6月被Thoma Bravo以大约30亿美元的价格收购。虽然

06

Apache Zeppelin 0.7.2 中文文档

本文介绍了Apache Zeppelin 0.7.2的中文文档，包括快速入门、教程、动态表单、发表你的段落、自定义Zeppelin主页、升级Zeppelin版本、从源码编译、使用Flink和Spark Clusters安装Zeppelin教程、解释器、概述、解释器安装、解释器依赖管理、解释器的模拟用户、解释员执行Hook（实验）、Alluxio解释器、Beam解释器、BigQuery解释器、Cassandra CQL解释器、Elasticsearch解释器、Flink解释器、Geode/Gemfire OQL解释器、HBase Shell解释器、HDFS文件系统解释器、Hive解释器、Ignite解释器、JDBC通用解释器、Kylin解释器、Lens解释器、Livy解释器、Markdown解释器、Pig解释器、PostgreSQL, HAWQ解释器、Python 2＆3解释器、R解释器、Scalding解释器、Scio解释器、Shell解释器、Spark解释器、系统显示、系统基本显示、后端Angular API、前端Angular API、更多。

08

如何确保机器学习最重要的起始步骤"特征工程"的步骤一致性？

关于特征工程，业界有这么一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。

02

谷歌欲用云端来统一不同平台推云数据分析工具

北京时间6月26日凌晨消息，今日谷歌在旧金山举行I/O大会，会上技术平台高级副总裁Urs Hlzle介绍了谷歌云计算的发展情况。目前谷歌云平台支持SQL、NoSQL、BigQuery和谷歌计算引擎。根据摩尔定律与云的关系：计算引擎价格下降30-53%；云存储价格下降68%；BigQuery价格下降85%；折扣自动调整。据介绍谷歌希望用云端平台来统一不同的平台，随后现场演示如何debug一个正在多个服务器上运行的应用，谷歌的云端调试平台和轻松的进行了语法错误查找。谷歌还为开发者提供了性能追踪器，以方便开发人

05

弃用 Lambda，Twitter 启用 Kafka 和数据流新架构

在 Twitter 上，我们每天都要实时处理大约 4000 亿个事件，生成 PB 级的数据。我们使用的数据的事件源多种多样，来自不同的平台和存储系统，例如 Hadoop、Vertica、Manhattan 分布式数据库、Kafka、Twitter Eventbus、GCS、BigQuery 和 PubSub。

02

大数据学习资源最全版本（收藏）

Apache Hadoop：分布式处理架构，结合了 MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）；

04

Diagrams 系统架构图绘制工具：使用 Python 绘制漂亮的系统架构图

Diagrams lets you draw the cloud system architecture in Python code. It was born for prototyping a new system architecture design without any design tools. You can also describe or visualize the existing system architecture as well. Diagrams currently supports main major providers including: AWS, Azure, GCP, Kubernetes, Alibaba Cloud, Oracle Cloud etc... It also supports On-Premise nodes, SaaS and major Programming frameworks and languages.

03

由Dataflow模型聊Flink和Spark

Dataflow模型（或者说Beam模型）旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前，流处理常被认为是一种不可靠但低延迟的处理方式，需要配合类似于MapReduce的准确但高延迟的批处理框架才能得到一个可靠的结果，这就是著名的Lambda架构。这种架构给应用带来了很多的麻烦，例如引入多套组件导致系统的复杂性、可维护性提高。因此Lambda架构遭到很多开发者的炮轰，并试图设计一套统一批流的架构减少这种复杂性。Spark 1.X的Mirco-Batch模型就尝试从批处理的角度处理流数据，将不间断的流数据切分为一个个微小的批处理块，从而可以使用批处理的transform操作处理数据。还有Jay提出的Kappa架构，使用类似于Kafka的日志型消息存储作为中间件，从流处理的角度处理批处理。在工程师的不断努力和尝试下，Dataflow模型孕育而生。

02

构建端到端的开源现代数据平台

在过去的几年里，数据工程领域的重要性突飞猛进，为加速创新和进步打开了大门——从今天开始，越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。“第一次浪潮”包括 ETL、OLAP 和关系数据仓库，它们是商业智能 (BI) 生态系统的基石，无法应对大数据的4V[1]的指数增长。由于面向 BI 的栈的潜力有限，我们随后见证了“第二次浪潮”：由于 Hadoop 生态系统（允许公司横向扩展其数据平台）和 Apache Spark（为大规模高效的内存数据处理打开了大门）。

01

Cloud Dataproc已完成测试，谷歌云平台生态更加完善

去年9月份，谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本，如今半年过去了，Cloud Dataproc服务已完成测试，现在可以被广泛使用。谷歌在旧金山的一次活

05

【头条】谷歌发布全新TensorFlow 库tf.Transform；百度将Ring Allreduce算法引入深度学习

谷歌发布全新 TensorFlow 库“tf.Transform” 谷歌表示，tf.Transform 将改善 TensorFlow 的数据预处理和格式转化难题。以下是谷歌对tf.Transform 的技术介绍： “今天我们正式发布 tf.Transform，一个基于 TensorFlow 的全新功能组件，它允许用户在大规模数据处理框架中定义预处理流水线（preprocessing pipelines），同时还可以将这些流水线导出，将其作为 TensorFlow 计算图（TensorFlow graph）

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭