腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1783)
视频
沙龙
1
回答
Google
Dataflow
上
的
Python
流
管道
缺少
某些
元素
度量
、
、
我正在运行
Python
数据
流
(beam 2.5),并且想知道为什么在beam.Map(lambda x: x.decode('utf-8'))之后没有显示步骤
度量
。一切都很好,但是
元素
的
数量消失了。 ? 如你所见,从这一点开始
的
数字是零。 我是不是漏掉了什么?
浏览 15
提问于2019-02-09
得票数 0
回答已采纳
1
回答
Google
Dataflow
:导入自定义
Python
模块
、
、
、
我尝试在
Google
Cloud
Dataflow
中运行Apache光束
管道
(
Python
),这是由
Google
Cloud Coomposer中
的
DAG触发
的
。)中,我设置了setup_file选项并将其传递给数据
流
: default_dag_args = { '
dataflow
_default_options': {
Google
Cloud Composer (Ap
浏览 16
提问于2020-01-13
得票数 2
1
回答
数据
流
flex模板作业尝试使用相同
的
job_name启动第二个作业(用于
管道
)
我正在尝试启动一个
Dataflow
flex模板。作为构建和部署过程
的
一部分,我正在预构建一个自定义SDK容器映像,以减少工人启动时间。数据
流
作业
的
权限,工人无法启动;没有工人activityWorkers无法安装requirements。当给定一个数据
流
时(预先安装了依赖项),数据
流
作业就会启动,但是它不会在同一个作业
上
运行
管道
,而是尝试使用相同
的
名称为
管道
启动一个数据
流
作业,这会导致error.
浏览 15
提问于2022-10-18
得票数 1
1
回答
在从CircleCI启动
的
数据
流
/Apache-beam作业
上
找不到库
、
、
、
、
我在使用从CircleCI启动
的
GCP
Dataflow
runner运行
python
Apache光束
管道
时遇到了严重
的
问题。基本
上
,我运行
的
是在数据
流
中运行并使用
google
-api-
python
-client-1.12.3
的
python
Apache光束
管道
。如果我在我
的
机器(
python
3 main.py --runne
浏览 10
提问于2020-10-13
得票数 2
回答已采纳
2
回答
从OutOfMemoryError读取小表时数据
流
BigQuery
在启动时,它从BigQuery读取大约10.000个
元素
/秒,过了很短
的
时间,它会慢到几百个
元素
/秒,然后完全挂起。在下一个处理步骤(BQImportAndCompute)
上
观察“添加
的
元素
”,值会增加,然后再次减小。在我看来,有些已经加载
的
数据被删除,然后再次加载。堆栈驱动程序日志记录控制台包含包含java.lang.OutOfMemoryError
的
各种堆栈跟踪错误,例如: 错误报告工作项进度更新到数据
流
服务
浏览 3
提问于2016-04-22
得票数 4
4
回答
Google
云存储:输出路径不存在或不可写
、
、
、
、
我正在尝试遵循中
的
这个简单
的
数据
流
示例。 我已经成功地安装了数据流
管道
插件和gcloud SDK (以及
Python
2.7)。我还在谷歌云
上
建立了一个项目,并启用了账单和所有必要
的
API-正如上面的说明所指定
的
那样。at com.
google
.cloud.
dataflow
.sdk.repackaged.com.
google
.common.base.Preconditions.checkArgumen
浏览 0
提问于2016-03-19
得票数 7
2
回答
什么是部署和管理用于
Google
云数据
流
的
Python
Beam
管道
执行
的
方便方法?
、
、
、
一旦使用
Python
和DataflowRunner在
Google
的
云数据
流
中设计和测试了Apache
管道
,那么在
Google
中使用它并管理其执行是一种方便
的
方法吗?什么是部署和管理
的
Python
Beam
管道
执行
的
方便方法?最好没有第三方工具,或者在
Google<
浏览 1
提问于2019-01-27
得票数 2
回答已采纳
1
回答
Google
Dataflow
是否支持使用
Python
SDK开发
的
状态
管道
?
、
、
根据<code>C0</code>和<code>C1</code>,
Google
数据
流
似乎在某种程度上支持有状态
管道
<code>A2</code><code>A3</code> 因此,我开
浏览 11
提问于2019-03-29
得票数 1
1
回答
Google
平台: Pub/Sub到Bigtable
、
、
、
、
我正在用
Python
在
Google
平台上构建一个
管道
。我
的
数据在Cloud /Sub中。我想使用
Dataflow
将其存储到Bigtable中。到目前为止,我在java中有一些从Pub/Sub到Bigtable
的
流
数据示例。有人能帮我提供一些资源或链接,介绍如何使用
Python
中
的
Dataflow
将数据从Pub/Sub流流到Bigtable吗?
浏览 1
提问于2017-08-23
得票数 2
2
回答
如何在Java中从云函数触发云数据流
管道
作业?
、
、
、
、
我需要从Cloud函数触发Cloud
管道
。但是云函数必须用Java编写。所以云函数
的
触发器是的Function /Create事件,也就是说,当一个文件上传到GCS桶中时,云函数必须触发云数据
流
。当我创建数据流
管道
(批处理)并执行该
管道
时,它将创建一个
dataflow
管道
模板并创建一个
Dataflow
作业。; import com.
google
.api.services.
dataflow
.
Dataf
浏览 14
提问于2020-08-21
得票数 9
回答已采纳
2
回答
升级到beam 2.30.0之后,云构建不再工作了
、
、
我一直在用beam 2.27.0启动我
的
数据
流
flex工作
流
,它一直都很好 entrypoint:
python
- --runner=DataflowRunner - --region=$_/template/setup.py
浏览 3
提问于2021-08-07
得票数 0
回答已采纳
2
回答
我可以在原生
python
中使用
google
DataFlow
吗?
、
、
、
我正试图在
google
中构建
python
管道
,而
google
云数据
流
似乎是一个不错
的
选择。当我研究文档和开发人员指南时,我发现apache梁总是附在数据流上,因为它是基于它
的
。我可能会在apache beam中找到处理我
的
数据文件
的
问题。 如果我想用
DataFlow
在原生
python
中构建我
的
ETL脚本,这可能吗?还是有必要用阿帕奇光束进行ETL
浏览 4
提问于2021-08-23
得票数 1
1
回答
更新apach梁数据
流
和
google
云-bigquery
的
指南
、
、
、
、
我想使用最新
的
google
bigquery和
dataflow
sdk,它可用于
python
2.7。我
的
管道
设置如下:*setup(** version==0.28.0',** packa
浏览 1
提问于2019-11-19
得票数 0
1
回答
从GCS向您
的
模型提供图像数据(tfrecords)
的
最佳方法是什么?
、
、
、
我为自己设定了一个目标,仅使用
Google
解决MNIST皮肤癌数据集。我见过很多示例,它们如何将csv文件提供给它们
的
模型,但没有使用图像数据
的
示例。应该把所有的to记录复制到,这样我才能像这样将数据提供给我
的
模型吗?或者有什么更好
的
方法吗? 提前谢谢。
浏览 0
提问于2019-01-11
得票数 1
回答已采纳
2
回答
Google
云数据
流
中
的
Beam应用日志
、
、
但是,当我尝试在
google
数据
流
环境中运行它时,我只在本地控制台上看到这些日志信息,但是它们没有出现在
Google
控制台上,用于数据
流
作业,也没有出现在他们
的
StackDriver日志记录页面中。下面是我在本地控制台运行数据
流
运行程序代码时所做
的
工作: -Dexec.args但是,当我在浏览器
上
的
<
浏览 1
提问于2017-09-16
得票数 7
回答已采纳
4
回答
调度作业
的
最简单方法
我只需要每天运行数据流
管道
,但在我看来,像这样需要构建整个web应用程序
的
解决方案似乎有点过了。我正考虑在Compute引擎Linux中运行来自cron作业
的
管道
,但这可能太简单了:)。
浏览 11
提问于2017-05-06
得票数 18
回答已采纳
4
回答
云数据
流
Python
:安装软件包失败:安装工作流失败
、
、
我正试图在DataflowRunner
上
测试我
的
数据流
管道
。我
的
代码总是在1小时1分钟被卡住,并说:数据
流
似乎被卡住了。在挖掘
Dataflow
堆栈驱动程序
的
堆栈跟踪时,我遇到了说Failed to install packages: failed to install workflow: exit status 1
的
错误from setuptools import setup, find_packages
浏览 0
提问于2018-02-09
得票数 4
回答已采纳
1
回答
:从运行
管道
本身获取作业名称和启动时间
、
我使用带有模板
的
Google
: CI服务器(连续集成)将模板部署到GCS,然后使用gcloud
dataflow
jobs run命令从该模板启动批处理作业。现在,在
管道
本身中,我想知道这个确切
管道
的
启动时间(用于输出文件
的
名称)。 这种反思是否可以在光束/数据
流
中进行?是否有可能从作业本身
的
内部获取作业名称和作业启动时间?(也就是说,在
Dataflow
在VM
上
执行
的
代
浏览 0
提问于2019-05-14
得票数 0
3
回答
无法写入bigquery -权限被拒绝:
Google
、
、
、
我使用使用
google
云数据
流
服务已经有一段时间了。数据流
管道
apache_beam.runners.
dataflow
.
dataf
浏览 0
提问于2018-05-07
得票数 4
2
回答
使用TTL
的
集成运行时对集群启动时间没有帮助
、
嗨,我有一个带有Foreach循环
的
管道
,其中我有一个
Dataflow
任务,它在我设置
的
集成运行时
上
运行,有10分钟
的
生存时间。当我使用三个文件触发
管道
时(即Foreach中
的
Dataflow
任务将执行三次),我看到每个数据
流
执行
的
集群启动时间几乎相同(4-6分钟)。我认为使用10分钟TTL
的
IR将大大减少集群
的
启动时间(至少在第二次或第三次执行时),但看起来并非
浏览 18
提问于2021-04-02
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券