使用数据流运行器在beam.pipeline内部运行没有输入的函数

基础概念

Apache Beam 是一个开源的、统一的模型，用于定义批处理和流处理的数据并行作业。Beam 的核心是 Pipeline，它代表了一组数据处理步骤。数据流运行器（Runner）是执行这些 Pipeline 的具体实现。

类型

Beam 的 Pipeline 可以分为两种类型：

批处理（Batch）：处理有限的数据集。
流处理（Streaming）：处理无限的数据流。

应用场景

数据处理：ETL（Extract, Transform, Load）作业。
实时分析：实时数据流的分析和处理。
机器学习：数据预处理和模型训练。

问题：使用数据流运行器在 `beam.Pipeline` 内部运行没有输入的函数

原因

在 Beam 中，Pipeline 需要有输入数据源才能执行。如果没有输入数据源，Pipeline 将无法启动。

解决方法

如果你需要在 Pipeline 内部运行一个没有输入的函数，可以考虑以下几种方法：

使用 Create 转换：创建一个包含单个元素的 PCollection，然后应用你的函数。

import apache_beam as beam

def my_function(element):
    # 你的函数逻辑
    return element

with beam.Pipeline() as p:
    result = (
        p
        | 'Create' >> beam.Create(['dummy'])
        | 'Apply Function' >> beam.Map(my_function)
    )

使用 ParDo 转换：直接在 Pipeline 中使用 ParDo 来应用你的函数。

import apache_beam as beam

class MyDoFn(beam.DoFn):
    def process(self, element):
        # 你的函数逻辑
        yield element

with beam.Pipeline() as p:
    result = (
        p
        | 'Create' >> beam.Create(['dummy'])
        | 'Apply Function' >> beam.ParDo(MyDoFn())
    )

使用 CombineGlobally 转换：如果你不需要输入数据，可以直接使用 CombineGlobally 来运行你的函数。

import apache_beam as beam

def my_function(elements):
    # 你的函数逻辑
    return elements

with beam.Pipeline() as p:
    result = (
        p
        | 'Create' >> beam.Create(['dummy'])
        | 'Apply Function' >> beam.CombineGlobally(my_function)
    )

参考链接

通过以上方法，你可以在 beam.Pipeline 内部运行没有输入的函数。选择哪种方法取决于你的具体需求和函数的逻辑。

使用数据流运行器在beam.pipeline内部运行没有输入的函数

、、

> beam.FlatMap(process_data) result = p.run() 这正常工作，并能够使用数据流运行器将数据加载到DirectRunner时运行得很好，但我需要使用Dataflow runner来运行它，并且我发现它只适用于beam.pipeline中的函数。该<em

浏览 17提问于2021-11-19得票数 0

2回答

在CI管道中部署数据流

、

我已经使用beam SDK用python编写了一个流式Google Dataflow管道。这里有关于我如何在本地运行它并设置-runner标志以在数据流上运行它的文档。有关于如何“运行”管道的文档，但并没有真正的“部署”它。，但因为它是流式传输的，所以它将永远不会返回。它还在内部管理打包和推送到存储桶。我知道如果我终止该进程，它将继续运行，但在CI服务器上设置它，

浏览 0提问于2018-11-02得票数 4

1回答

ADF -根据条件从数据流活动列表中执行一个活动的最佳方法是什么？

、、

我有20种文件格式和一个数据流活动，映射到其中的每一个。根据文件名，我知道要执行哪些数据流活动。是通过“切换”活动来处理这个问题的唯一方法吗？还有别的办法吗？例如，我可以用变量名来参数化数据流来执行吗？：

浏览 5提问于2022-07-23得票数 1

1回答

如何从DataFlow模板中提取REST API参数？

、、

我想在Google Cloud平台中使用Cloud Function触发数据流。在Cloud Function中，我使用Python这样调用API： from googleapiclient.discovery import build 'environment':environment) response = request.execute() 这是

浏览 17提问于2020-12-08得票数 0

1回答

只有在另一个管道在google数据流上完成后才执行管道。

、、

我想在google数据流上运行一个管道，它依赖于另一个管道的输出。现在，我只是在本地使用DirectRunner运行两个管道： (p | SomeTransform()

浏览 0提问于2018-03-09得票数 4

2回答

读取GCS blob，其中文件名来自apache beam中以前的p-集合。

、、、、

我正在尝试读取一个GCS blob，其中文件名来自apache束中的以前的p集合。代码示例如下所示。** #"gs://beam-basics-gcs/example.parquet"ib.show(pubsub) 我想使用一个流数据流作业，在这里，我希望通过发布子主题获得不同的文件名最后，在阅读了之后，我想要吃进bigquery

浏览 0提问于2021-05-09得票数 0

1回答

数据流管道上的BigQuery作业依赖项

、、

我有一个用python编写的apache光束管道，不管出于什么原因，它都有一个如下所示的流程。client.query('create table sample_table_1 as select * from table_1') result2 = query_job2.result() SQL作业--> Datapi

浏览 9提问于2020-10-31得票数 2

2回答

WARNING:apache_beam.options.pipeline_options:Discarding无法解析的参数

、、、、

uuid.uuid4()}', temp_location='xxx') p = beam.Pipeline最终发生的情况是，我得到以下错误： WARNING:apache_beam.options.pipeline_options:Discarding unparseable args: ['gs://xx/xx'] 这没有

浏览 32提问于2021-02-09得票数 0

回答已采纳

2回答

无法在wait_to_finish()之后处理数据流失败状态

、、

我有一个Python脚本，它运行一个Beam/Dataflow作业p = beam.Pipeline(options=pipeline_options)Dataflow控制台中显示的</em

浏览 11提问于2021-12-20得票数 0

1回答

如何正确使用数据流/ Apache beam wait_until_finish持续时间参数？

、、、

我有一个批处理作业在数据流运行器上的版本apache-beamgcp==2.19.0下的gcp上的数据流中运行。我为该作业创建了一个自定义模板。作业按预期运行，但我还想添加一个最大作业持续时间。in milliseconds) parameter inside the wait_until_finish() method，which should be available.问题是:如何让模板化的批处理作业在运

浏览 22提问于2020-08-13得票数 0

1回答

当存在与转换相关的数据流活动时，Azure数据工厂转换管道的执行时间超过5分钟

、、、、

我已经创建了一个带有数据流活动的管道，该活动将我的输入文件中的两个字段连接起来。我的输入文件包含5行数据和4个字段。我正在使用.net SDK通过visual studio创建这些东西。当我创建这个作业并运行它时，它的执行时间超过了5分钟。我感觉这是在内部启用数据流调试器，这就是为什么它要花费这么多时间。我只想知道我的答案对不对。如果没有

浏览 10提问于2020-09-17得票数 0

1回答

Beam/Dataflow:未找到会话文件:/var/opt/google/dataflow/泡沫化_main_ session

、

当使用Apache (GCP数据流)时，我在工作日志中看到以下警告：我的数据流工作似乎没有问题，但我想知道这个警告是关于什么的。我在一些示例代码中看到了以下内容(

浏览 3提问于2021-07-15得票数 1

2回答

Google云数据流中的Beam应用日志

、、

我有一个使用directrunner在本地成功运行的Beam应用程序，它提供了我在本地控制台上代码中的所有日志信息。但是，当我尝试在google数据流环境中运行它时，我只在本地控制台上看到这些日志信息，但是它们没有出现在Google控制台上，用于数据流作业，也没有出现在他们的StackDriver日志记录页面中。但是，当我在浏览

浏览 1提问于2017-09-16得票数 7

回答已采纳

1回答

使用ValueProvider格式化数据流中的BigQuery

、、、

我目前正在使用Dataflow在python中进行循环批处理。pipeline_options = PipelineOptions() | "doing stuff" >> beam.Map(do_some_stuff)

浏览 16提问于2019-10-22得票数 2

回答已采纳

1回答

未使用运行时参数的数据流模板

、

我正在使用数据流模板来运行云数据流 我提供了一些默认值和调用模板。数据流在数据流管道摘要中正确显示管道选项。但是它没有获取运行时的值。data', default='gs://default/validate/' ) 然后我检查这些值是可访问的p = <

浏览 15提问于2019-05-24得票数 1

1回答

使用Python和Apache Beam部署数据流管道

、、

我是第一次使用Apache光束和Dataflow。我想使用数据集作为将使用数据流并行部署的函数的输入。这是我到目前为止所知道的：import apache_beam as beamopt

浏览 4提问于2018-11-21得票数 2

1回答

有没有可能在谷歌数据流中同时输入发布/订阅和BigQuery？

、、、

在我的项目中，我希望使用Google Dataflow中的流水线来处理发布/订阅消息。在清理输入数据时，我也希望有一个来自BigQuery的侧输入。这就出现了一个问题，它将导致两个输入中的一个无法工作。我在我的管道选项中设置了streaming=True，它允许正确处理发布/订阅输入。“基于这些限制，这是可以理解的。但我只

浏览 29提问于2019-01-10得票数 2

3回答

在google cloud apache beam python sdk中记录信息/调试消息

、、、

我想在运行数据流程序时在屏幕上打印信息或调试或异常消息。我可以在以"DirectRunner“作为runner运行管道时做到这一点。但是，当使用runner "DataflowRunner“运行时，相同的程序不会在数据流控制台上打印任何内容。这是代码，它非常基础。pipeline_options = PipelineOptions() pipeline_options.view_as(SetupOptions).

浏览 1提问于2018-07-16得票数 0

1回答

TypeError连接到Google时，从的BigQuery？

、、、

当尝试在apache的google数据流中初始化python BigQuery Client()时，它给出了一个类型错误：我在apache数据流中使用Python3.7，我必须初始化客户机并手动写入BigQuery，而不是使用ptransform，因为我想使用通过运行时参数传递

浏览 1提问于2019-06-04得票数 1

回答已采纳

1回答

数据流模板是否支持BigQuery接收器选项的模板输入？

、、

因为我有一个工作的静态数据流运行，所以我想从这个模板中创建一个模板，这样我就可以轻松地重用Dataflow，而不需要输入任何命令行。按照官方的教程，不提供可模板输出的示例。我的数据流以一个BigQuery接收器结束，它接受一些参数，比如存储的目标表。这个确切的参数是我希望在我的模板中可用的参数，允许我在运行流之后选择目标存储。

浏览 4提问于2017-11-06得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用数据流运行器在beam.pipeline内部运行没有输入的函数

基础概念

相关优势

类型

应用场景

问题：使用数据流运行器在 beam.Pipeline 内部运行没有输入的函数

原因

解决方法

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问题：使用数据流运行器在 `beam.Pipeline` 内部运行没有输入的函数