如何使用DataflowPythonOperator在Apache Airflow中运行Apache Beam数据管道 - 腾讯云开发者社区

、、、、

我已经在一个码头上安装了apache_beam Python和airflow。Python版本: 3.5我正在尝试使用**DataflowPythonOperator**执行apache波束管道。当我从气流用户界面运行DAG时，我得到导入错误:导入apache_beam作为光束。在SSH进入码头后，当我在一个码头容器中</

浏览 1提问于2019-09-06得票数 1

1回答

如何使用DataflowPythonOperator在Apache* Airflow中运行Apache *Beam数据管道

、、、、

我已经在我的Airflow DAG中实现了DataflowPythonOperator，在执行时，我得到了下面的错误： 2019-06-12 07:04:27,988] {{models.py:1595}} INFO - Executing <Task(DataFlowPythonOperator): task_run_pipeline> on 2019-05-01T04:10:00+00:00 [2019recent call last):\n File "&#

浏览 11提问于2019-06-13得票数 0

回答已采纳

1回答

气流异常:数据流失败，返回代码2

、、、

我正在尝试执行一个数据流python文件，该文件使用DataFlowPythonOperator从GCS桶中读取文本文件。我能够独立地执行python文件，但是当我通过气流执行它时，它失败了。我使用一个服务帐户来验证我的默认gcp连接。airflow.contrib.operators.dataflow_operator import DataFlowPythonOperator from datetime import datetimeas beam

浏览 0提问于2018-05-04得票数 2

2回答

GCP Composer -如何运行Python 3而不是Python 2

、、、

我正在使用GCP作曲家来编排ETL…。在创建实例时，我将Python版本设置为Python 3每当我们部署到composer-1.7.9-airflow-1.10.1时，任务都会使用</em

浏览 3提问于2019-12-16得票数 1

回答已采纳

1回答

通过气流运行数据流作业时出错:模块“apache_beam.io”没有属性“ReadFromBigQuery”

、、、、

:42,613] {taskinstance.py:1059} ERROR - DataFlow failed with return code 1fromdatetime import datetime, timedelta from airflow.contrib.operators.dataflow_operator波束管道：from datetime import date

浏览 4提问于2021-05-05得票数 0

回答已采纳

2回答

哪种开源框架最适合ETL、Apache* Airflow或Apache Beam？*

、、、、

我正在尝试用开源框架来做ETL，我听说过两件事，Apache Beam和Apache Airflow，这两件事最适合整个ETL或ELT，比如Talend、Azure Data Factory等，事实上，我正在尝试用云数据仓库(redshift、azure数据仓库、雪花等)来做所有的事情。

浏览 35提问于2019-07-09得票数 0

1回答

成功的数据流管道通过PythonVirtualenvOperator在气流中多次运行

、、、

我正在运行一个Apache管道(与Google一起部署)，该管道是由Apache气流组织的。dag=dag波束管道文件(custom_py_file.py)如下： import apache_beam as beam fromPython3和BashOperator，我需要Python3来运行这个管道。问题是，尽管成功运行<

浏览 3提问于2019-11-05得票数 2

回答已采纳

2回答

数据流BigQuery到BigQuery

、、、

我正在尝试创建一个从BigQuery返回到BigQuery的数据流脚本。我们的主桌是巨大的，破坏了提取能力。我想创建一个包含所有相关信息的简单表(作为查询的结果)。另外，我怎样才能让它每天早上自动运行？import loggingimport apache_beam as beam BUCKET='temp1/python2rows = p | 'read' >

浏览 0提问于2018-03-13得票数 1

回答已采纳

3回答

没有名为airfow.gcp的模块-如何运行使用python3/beam2.15的数据流作业？

、、、

当我使用像BigQueryHook这样的运算符/钩子时，我看到一条消息，指出这些运算符已弃用，请使用airflow.gcp...运算符版本。但是，当我尝试在dag中使用它时，它失败了，并且没有显示名为airflow.gcp的模块。我有最新的airflow composer版本，带有测试版功能，python3。我正在尝试使用beam 2.15在Python3中运行数

浏览 26提问于2019-10-25得票数 8

回答已采纳

1回答

从编写器触发DataFlow作业启动时间过长

、、

数据流选项如下：from apache_beam.io import ReadFromText, WriteToText在本地运行这个数据流需要大约6分钟来完成，大部分时间都是在员工启动时完成的。我试着用Composer实现这段代码的自

浏览 5提问于2022-08-11得票数 1

回答已采纳

1回答

Google Dataflow:导入自定义Python模块

、、、

我尝试在Google Cloud Dataflow中运行Apache光束管道(Python)，这是由Google Cloud Coomposer中的DAG触发的。Beam的文档和答案，所以： import setuptools setuptools.setup(setuptools.find_packages()) 在DAG文件(dataflow.py)中，setup_file': os.path.join(configu

浏览 16提问于2020-01-13得票数 2

2回答

如何使用Apache* (数据流)从API中获取数据？*

、、

我们有一个Python程序，它被设置为一个云函数，但是它正在超时，因为有太多的数据要加载，我们希望重写它，以便在Dataflow中工作。目前，代码只需连接到API，API返回换行符JSON，然后将数据加载到BigQuery中的一个新表中。这是我们第一次使用Dataflow，我们只是想了解它是如何工作的。将数据输入BigQuery似乎相当容易，我们遇到的绊脚石是如何将数据从API中提取出来。我们还不清楚我们如

浏览 1提问于2021-03-18得票数 0

回答已采纳

2回答

气流安装故障beam[gcp]

、、、

带命令的气流安装失败昨天一切都很好。今天，我看到了以下错误： Could not find a version that satisfies the requirement apache-beam[gcp]==2.3.0 (from google-cloud-dataflow->apache-airflow[gcp_api]) (from versions: 0.6.0, 2.0.0, 2.1.0

浏览 0提问于2018-03-01得票数 5

回答已采纳

2回答

如何在Python中创建从发布/订阅到GCS的数据流管道

、、、

我想使用Dataflow将数据从发布/订阅移动到GCS。因此，基本上我希望Dataflow在固定的时间内(例如15分钟)积累一些消息，然后在该时间段过去后将这些数据作为文本文件写入GCS。我的最终目标是创建一个自定义的管道，所以“发布/订阅到云存储”模板对我来说是不够的，而且我对Java一无所知，这让我开始在Python中进行调整。res = p.run() res.wait_until_finish() 我在本地环境中</

浏览 6提问于2019-02-18得票数 7

回答已采纳

1回答

使用Composer启动CloudDataFlow Java应用程序时出错

、

我是一个GCP新手，在尝试使用GCP 运行云数据流应用程序时会遇到一个错误。气流收集管道，但失败与以下的错误。gcp_dataflow_hook.py:115} INFO - Running command: java -cp /tmp/dataflow13ec2a50-BeamTutorial-0.0.1-SNAPSHOT.jar org.apache.beam.examples.tutorial.game.solution.Exercise2--

浏览 3提问于2018-10-18得票数 1

1回答

azure-快速入门- airflow* 2的模板*

、、、、

几天前，我使用的azure快速入门模板安装了AirFlow1.X 我正在寻找一个类似的模板，以方便(只是尝试)在Azure上部署Airflow 2。我试着从上面的链接修改模板，指向官方的Apache Airflow图像，但airflow应用程序一直关闭。

浏览 4提问于2021-09-15得票数 0

1回答

如何连接kubernetes中的2个pods，因为它们位于同一局域网中，并且所有端口都已打开

、、、

TLDR；目前，我们已经在Kubernetes集群中实现了airflow，并且为了使用TensorFlow扩展，我们需要使用Apache。对于我们的用例，Spark将是要使用的合适的runner，因为airflow和TensorFlow是用python编写的，所以我们需要

浏览 43提问于2021-02-23得票数 2

1回答

无法通过气流BeamRunPythonPipelineOperator运行python管道

、、、、

我无法通过气流BeamRunPythonPipelineOperator运行python管道。import DataflowConfiguration from apache_beam.io import ReadFromText

浏览 1提问于2021-10-30得票数 1

回答已采纳

3回答

在google cloud上训练神经网络时出现"Unable to get Filesystem for path“错误

、、、、

我正在使用Google Cloud在云上训练神经网络，如以下示例所示： PROJECT_ID=$(gcloud config list project --format"value(core.project)")然后，我使用以下命令将我的训练和评估数据上传到谷歌云存储：然后，我验证了这两个csv文件是否<

浏览 2提问于2017-05-23得票数 9

1回答

Dataflow中的自定义Apache* Beam Python版本*

、、

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。我知道打包定制包(例如私有的本地包)的可能性，正如官方中所描述的那样。这里有关于如何为其他一些脚本做这件事的答案是。但我还没有设法得到当前的Apache光束开发版本(或标记的版本)，该版本可在其官方存储库的主分

浏览 16提问于2017-07-27得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

ImportError:导入apache_beam作为梁。模块未找到

如何使用DataflowPythonOperator在Apache* Airflow中运行Apache *Beam数据管道

气流异常:数据流失败，返回代码2

GCP Composer -如何运行Python 3而不是Python 2

通过气流运行数据流作业时出错:模块“apache_beam.io”没有属性“ReadFromBigQuery”

哪种开源框架最适合ETL、Apache* Airflow或Apache Beam？*

成功的数据流管道通过PythonVirtualenvOperator在气流中多次运行

数据流BigQuery到BigQuery

没有名为airfow.gcp的模块-如何运行使用python3/beam2.15的数据流作业？

从编写器触发DataFlow作业启动时间过长

Google Dataflow:导入自定义Python模块

如何使用Apache* (数据流)从API中获取数据？*

气流安装故障beam[gcp]

如何在Python中创建从发布/订阅到GCS的数据流管道

使用Composer启动CloudDataFlow Java应用程序时出错

azure-快速入门- airflow* 2的模板*

如何连接kubernetes中的2个pods，因为它们位于同一局域网中，并且所有端口都已打开

无法通过气流BeamRunPythonPipelineOperator运行python管道

在google cloud上训练神经网络时出现"Unable to get Filesystem for path“错误

Dataflow中的自定义Apache* Beam Python版本*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐