腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
数据流
管道
中
的
TextIOWrapper
运行
缓慢
python
、
google-cloud-platform
、
apache-beam
、
dataflow
由于某些字段
中
存在各种字符,bq load命令无法正确解析文件,因此我求助于
数据流
来帮助解析和加载。有8个文件,每个文件
的
大小约为1 1GB。它有96列
的
数据和大约3M条记录直接从GCS加载到BQ。大多数字段都是带有少量数字和时间戳类型
的
字符串。 我
的
流水线在
运行
,但速度非常慢。在这种情况下,
管道
持续
运行
并在大约20分钟内完成(根据dataflow声称它可以做
的
事情,仍然感觉时间很长,但如果这是我能得到
的</
浏览 20
提问于2019-06-26
得票数 0
1
回答
如何调试Google
数据流
流引擎中断?
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-stackdriver
我们正在使用流引擎选项在
中
运行
一些流处理。今天早上有些数据丢失了,所以我试着做一些故障排除。我发现
的
唯一一件事似乎是重新启动了工作人员(请参阅日志文件
的
屏幕截图)。日志
中
没有显示任何错误或异常。我们对GCP非常陌生,所以我们不太了解我们
的
方式。是否有任何方法找到重新启动工作人员
的
根本原因?或者这只是一个基础设施错误?
浏览 1
提问于2019-12-11
得票数 0
1
回答
Azure
数据流
活动如何按顺序或并行
运行
azure
、
azure-data-factory
、
azure-data-factory-2
数据流
活动是以并行或顺序
运行
的
。更详细地说,我们有两个名为Source1和Source2
的
源,所以当我
运行
这个
管道
时,它将同时
运行
两个源,还是执行source1,当所有这些都执行到sink1时,它将执行sources2。
浏览 0
提问于2019-09-04
得票数 0
回答已采纳
1
回答
读取
数据流
模板
中
的
值提供程序参数
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
我有一个云函数,它在加载新文件时启动
数据流
模板,并在GS上传递到该文件
的
路由。我必须将其作为值提供程序读取,并像这样在
管道
中
传递它。dataflow_options.input) | apache_beam.FlatMap(lambda f: csv.DictReader(io.
TextIOWrapper
浏览 6
提问于2020-12-21
得票数 1
2
回答
SSIS多个数据目标
ssis
是否可以有一个数据源将数据传输到多个数据目标,或者我是否必须创建与目标一样多
的
源?我有一个包含数据
的
CSV文件,我必须将这些数据分发到不同
的
表
中
。
浏览 1
提问于2013-06-07
得票数 23
回答已采纳
1
回答
为什么在Azure数据工厂
中
管道
永远处于排队状态?
azure
、
azure-pipelines
、
azure-data-factory
、
azure-data-factory-2
、
azure-synapse
我有一个
管道
来执行Azure Data
中
的
几个
数据流
,几周前它
运行
正常,持续了大约25分钟才完成,我不得不在一个过滤器
中
做一些调整(具体来说,这是最后一个也是唯一一个永远保持排队
的
数据流
,这个
数据流
插入到SQL DB
中
)。在调整之后,每次
管道
运行
时都不作任何解释,它只是在排队状态上保持静态,并且永远不会结束:我试图删除调整所在
的
筛选器,重新创建
浏览 2
提问于2021-11-25
得票数 0
1
回答
如何改进
数据流
流水线
中
的
低吞吐量群密钥
group-by
、
google-cloud-dataflow
、
apache-beam
、
key-value
我有一个apache批处理
管道
(用java编写),用于将bigquery
中
的
原始分析数据转换为聚合形式。会话记录(现在可能在接下来
的
几天内扩展到页面事件)和一组新
的
页面事件从bigquery
中
读取。然后,
管道
执行一个groupByKey操作,在聚合操作之前按用户id (跨两个数据集)分组以创建会话记录。从在线研究
中
,我知道有时使用Combine操作比使用groupByKey操作更有效(除其他外,这个),但我认为这不适合我分组
的
数据(烧
浏览 6
提问于2020-08-18
得票数 1
1
回答
基于Azure数据工厂
的
管道
烟度测试方法
azure-data-factory
、
smoke-testing
我有-前提Server>ADF->存储->ADF->Azure SQL
管道
。我用
的
是Azure DevOps。ADF
管道
每晚执行,如果存在ADF监视器显示错误。我想知道是否存在ADF或其他框架,用于在功能测试之前进行特定
的
烟雾测试等等。
浏览 6
提问于2021-11-01
得票数 0
回答已采纳
1
回答
流水线变量会在两次
运行
之间持续存在吗?
azure-data-factory
我在2个cosmos dbs之间做一个简单
的
数据流
管道
。
管道
从
数据流
开始,它获取
管道
变量"LastPipelineStartTime“,并将该参数传递给
数据流
,供查询使用,以获取c._ts >=为"LastPipelineStartTime”
的
所有新数据。然后,在
数据流
成功时,通过设置变量将变量更新为pipeline.TriggerTime()。本质上来说,我总是在
管道
运行
浏览 12
提问于2020-03-05
得票数 2
回答已采纳
1
回答
如何在
数据流
管道
中
实现PubSubIO
中
的
流量控制设置
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
在我们
的
应用程序
中
,我们在
数据流
管道
中使用PubsubIO从PubSub读取数据。下面是代码。from bigquery table", ParDo.of(new ReadRawdataFromBiqueryTable())); 但是,当我们在此
管道
中
附加BigQuery读取时,由于BigQuery读取速度较慢,因为我们在ParDo
中
执行此操作,似乎在PubSub订阅服务器
中
实现了一些默认
浏览 12
提问于2020-03-25
得票数 1
2
回答
DataFlow与
管道
的
区别
azure-data-factory
我不明白Azure数据工厂
的
数据流
和
管道
之间
的
区别。但我已经做了一条
管道
,这是完全一样
的
事情。 谢谢
浏览 1
提问于2020-05-26
得票数 7
回答已采纳
2
回答
Google云
数据流
中
的
Beam应用日志
logging
、
google-cloud-dataflow
、
apache-beam
我有一个使用directrunner在本地成功
运行
的
Beam应用程序,它提供了我在本地控制台上代码
中
的
所有日志信息。但是,当我尝试在google
数据流
环境
中
运行
它时,我只在本地控制台上看到这些日志信息,但是它们没有出现在Google控制台上,用于
数据流
作业,也没有出现在他们
的
StackDriver日志记录页面
中
。但是,当我在浏览器上
的
Google控制台上搜索
数据流
工作
的</
浏览 1
提问于2017-09-16
得票数 7
回答已采纳
1
回答
使用共享VPC
的
Google云
数据流
/函数
google-cloud-functions
、
google-cloud-dataflow
目前,我正在开发GCP
中
的
一个项目,该项目使用多个子网连接到单个主机项目上,用于映射不同
的
环境(经典环境开发、阶段和生产),我正在尝试
运行
数据流
管道
和云函数,这些
管道
和云函数需要连接到不同服务项目中驻留在VM上
的
数据库。到目前为止,我已经为属于特定环境
的
子网设置了具有网络用户角色
的
运行
数据流
和云功能
的
服务帐户,在
数据流
的
情况下,
浏览 0
提问于2018-12-03
得票数 1
2
回答
集成
运行
时
的
TTL不起作用
azure-data-factory
、
azure-data-factory-2
、
azure-data-flow
我有一个由顺序
运行
的
子
管道
组成
的
管道
。其中一些子
管道
以相同
的
IR (30分钟TTL)
运行
数据流
,但所有
数据流
都使用5分钟
的
启动时间。 我记得这个方法以前是有效
的
。大概一个月前吧。我猜这可能是Azure Data Factory
中
的
一个bug。
浏览 14
提问于2021-04-10
得票数 0
回答已采纳
1
回答
设置
管道
google
数据流
的
优先级
pipeline
、
google-cloud-dataflow
我是谷歌
数据流
的
新手。我有两个
数据流
流水线来执行两个不同
的
任务。一个是ETL处理并加载到Bigquery,另一个是从Bigquery读取以聚合报告。我想先
运行
管道
ETL,在它完成后,将
运行
报告
管道
,以确保bigquery
中
的
数据是最新
的
更新。 我试着在一条
管道
上跑,但它不起作用。现在我必须先
运行
手动ETL,然后再
运行
报表
管道
。谁
浏览 14
提问于2017-08-11
得票数 0
2
回答
无法为ADF
数据流
中
的
参数化源数据集指定参数
azure-data-factory
我有一个
数据流
,它有一个参数:TableName。流中用作源
的
数据集将为TableName参数( Server数据集)进行参数化。在ADF
数据流
中选择源设置
中
的
此数据集时,它不允许我设置TableName参数,就像在标准CopyActivity
中
设置源时一样。那么,如果
数据流
不允许您设置参数,那么如何在
数据流
中使用参数化数据集呢?
浏览 0
提问于2020-08-06
得票数 2
回答已采纳
1
回答
大约25天后Google
数据流
管道
挂起
google-cloud-dataflow
、
apache-beam
我们正在
运行
多个
数据流
数据流
管道
,这些
管道
最终总是挂起,需要在
运行
25天后重新启动。
管道
是否有某种最大
的
运行
时间?是否有任何建议
的
最佳做法来重新启动流式作业
的
频率更频繁,即使没有代码更改(即,我们是否应该每两周重新启动
管道
?1周?)
浏览 0
提问于2019-03-22
得票数 1
1
回答
我可以在单个apache beam代码中使用多个Runner吗?
apache-spark
、
etl
、
google-cloud-dataflow
、
apache-beam
我是新来
的
阿帕奇光束。到目前为止,我
的
理解是,apache beam只不过是ETL处理
的
工具。Runner可以被称为CPU、内存和存储
的
集合。我
的
问题是,我可以在单束python代码中使用两种或更多类型
的
runner吗? 例如,一个runner用于
数据流
,另一个用于spark,第三个用于directrunner,像这样?
浏览 29
提问于2020-06-29
得票数 1
1
回答
在google作业上安装chromedriver
python
、
selenium
、
web-scraping
、
selenium-chromedriver
、
google-cloud-dataflow
我想将一个刮刮
的
容器式python应用程序迁移到一个apache
管道
上,我可以在
数据流
上
运行
这个
管道
。我
的
刮取应用程序使用2种刮擦方法:卷曲响应和selenium色度驱动程序。在本地
运行
应用程序时,所有操作都很好,因为刮取正在使用这两种方法成功
运行
,因为我在本地计算机上安装了chromedriver。 现在
的
问题是
数据流
。我知道google
数据流
是无服务器
的
。我只是想知道是否有一种
浏览 3
提问于2022-05-30
得票数 1
1
回答
与ADF
数据流
相关
的
成本
azure-data-factory
、
azure-data-factory-2
Azure Data
数据流
的
成本是多少?账单是否取决于我们创建
的
数据流
/集成
运行
时?此外,账单是否取决于我们从创建ADF
数据流
时开始
运行
管道
还是开始计费?如果是这样的话,在Azure
中
是否有禁用/暂停ADF
数据流
帐户
的
选项?
浏览 4
提问于2020-04-30
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
排水管道中多普勒流量仪的应用:提高排水系统运行效率
弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
系统架构设计师:系统架构设计基础知识--数据流体系结构风格
研究称:2024年1/3的家庭将会是mobile-only用户
数据流的未来前景如何?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券