数据流管道中的TextIOWrapper运行缓慢_MS access中运行缓慢的查询_我可以在一个管道作业中运行两个独立的数据流水线cdap管道吗？ - 腾讯云开发者社区

python、google-cloud-platform、apache-beam、dataflow

由于某些字段中存在各种字符，bq load命令无法正确解析文件，因此我求助于数据流来帮助解析和加载。有8个文件，每个文件的大小约为1 1GB。它有96列的数据和大约3M条记录直接从GCS加载到BQ。大多数字段都是带有少量数字和时间戳类型的字符串。我的流水线在运行，但速度非常慢。在这种情况下，管道持续运行并在大约20分钟内完成(根据dataflow声称它可以做的事情，仍然感觉时间很长，但如果这是我能得到的</

浏览 20提问于2019-06-26得票数 0

1回答

如何调试Google数据流流引擎中断？

google-cloud-platform、google-cloud-dataflow、apache-beam、google-cloud-stackdriver

我们正在使用流引擎选项在中运行一些流处理。今天早上有些数据丢失了，所以我试着做一些故障排除。我发现的唯一一件事似乎是重新启动了工作人员(请参阅日志文件的屏幕截图)。日志中没有显示任何错误或异常。我们对GCP非常陌生，所以我们不太了解我们的方式。是否有任何方法找到重新启动工作人员的根本原因？或者这只是一个基础设施错误？

浏览 1提问于2019-12-11得票数 0

1回答

Azure数据流活动如何按顺序或并行运行

azure、azure-data-factory、azure-data-factory-2

数据流活动是以并行或顺序运行的。更详细地说，我们有两个名为Source1和Source2的源，所以当我运行这个管道时，它将同时运行两个源，还是执行source1，当所有这些都执行到sink1时，它将执行sources2。

浏览 0提问于2019-09-04得票数 0

回答已采纳

1回答

读取数据流模板中的值提供程序参数

google-cloud-platform、google-cloud-dataflow、apache-beam

我有一个云函数，它在加载新文件时启动数据流模板，并在GS上传递到该文件的路由。我必须将其作为值提供程序读取，并像这样在管道中传递它。dataflow_options.input) | apache_beam.FlatMap(lambda f: csv.DictReader(io.TextIOWrapper

浏览 6提问于2020-12-21得票数 1

2回答

SSIS多个数据目标

ssis

是否可以有一个数据源将数据传输到多个数据目标，或者我是否必须创建与目标一样多的源？我有一个包含数据的CSV文件，我必须将这些数据分发到不同的表中。

浏览 1提问于2013-06-07得票数 23

回答已采纳

1回答

为什么在Azure数据工厂中管道永远处于排队状态？

azure、azure-pipelines、azure-data-factory、azure-data-factory-2、azure-synapse

我有一个管道来执行Azure Data中的几个数据流，几周前它运行正常，持续了大约25分钟才完成，我不得不在一个过滤器中做一些调整(具体来说，这是最后一个也是唯一一个永远保持排队的数据流，这个数据流插入到SQL DB中)。在调整之后，每次管道运行时都不作任何解释，它只是在排队状态上保持静态，并且永远不会结束：我试图删除调整所在的筛选器，重新创建

浏览 2提问于2021-11-25得票数 0

1回答

如何改进数据流流水线中的低吞吐量群密钥

group-by、google-cloud-dataflow、apache-beam、key-value

我有一个apache批处理管道(用java编写)，用于将bigquery中的原始分析数据转换为聚合形式。会话记录(现在可能在接下来的几天内扩展到页面事件)和一组新的页面事件从bigquery中读取。然后，管道执行一个groupByKey操作，在聚合操作之前按用户id (跨两个数据集)分组以创建会话记录。从在线研究中，我知道有时使用Combine操作比使用groupByKey操作更有效(除其他外，这个)，但我认为这不适合我分组的数据(烧

浏览 6提问于2020-08-18得票数 1

1回答

基于Azure数据工厂的管道烟度测试方法

azure-data-factory、smoke-testing

我有-前提Server>ADF->存储->ADF->Azure SQL管道。我用的是Azure DevOps。ADF管道每晚执行，如果存在ADF监视器显示错误。我想知道是否存在ADF或其他框架，用于在功能测试之前进行特定的烟雾测试等等。

浏览 6提问于2021-11-01得票数 0

回答已采纳

1回答

流水线变量会在两次运行之间持续存在吗？

azure-data-factory

我在2个cosmos dbs之间做一个简单的数据流管道。管道从数据流开始，它获取管道变量"LastPipelineStartTime“，并将该参数传递给数据流，供查询使用，以获取c._ts >=为"LastPipelineStartTime”的所有新数据。然后，在数据流成功时，通过设置变量将变量更新为pipeline.TriggerTime()。本质上来说，我总是在管道运行

浏览 12提问于2020-03-05得票数 2

回答已采纳

1回答

如何在数据流管道中实现PubSubIO中的流量控制设置

google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam、google-cloud-pubsub

在我们的应用程序中，我们在数据流管道中使用PubsubIO从PubSub读取数据。下面是代码。from bigquery table", ParDo.of(new ReadRawdataFromBiqueryTable())); 但是，当我们在此管道中附加BigQuery读取时，由于BigQuery读取速度较慢，因为我们在ParDo中执行此操作，似乎在PubSub订阅服务器中实现了一些默认

浏览 12提问于2020-03-25得票数 1

2回答

DataFlow与管道的区别

azure-data-factory

我不明白Azure数据工厂的数据流和管道之间的区别。但我已经做了一条管道，这是完全一样的事情。谢谢

浏览 1提问于2020-05-26得票数 7

回答已采纳

2回答

Google云数据流中的Beam应用日志

logging、google-cloud-dataflow、apache-beam

我有一个使用directrunner在本地成功运行的Beam应用程序，它提供了我在本地控制台上代码中的所有日志信息。但是，当我尝试在google数据流环境中运行它时，我只在本地控制台上看到这些日志信息，但是它们没有出现在Google控制台上，用于数据流作业，也没有出现在他们的StackDriver日志记录页面中。但是，当我在浏览器上的Google控制台上搜索数据流工作的</

浏览 1提问于2017-09-16得票数 7

回答已采纳

1回答

使用共享VPC的Google云数据流/函数

google-cloud-functions、google-cloud-dataflow

目前，我正在开发GCP中的一个项目，该项目使用多个子网连接到单个主机项目上，用于映射不同的环境(经典环境开发、阶段和生产)，我正在尝试运行数据流管道和云函数，这些管道和云函数需要连接到不同服务项目中驻留在VM上的数据库。到目前为止，我已经为属于特定环境的子网设置了具有网络用户角色的运行数据流和云功能的服务帐户，在数据流的情况下，

浏览 0提问于2018-12-03得票数 1

2回答

集成运行时的TTL不起作用

azure-data-factory、azure-data-factory-2、azure-data-flow

我有一个由顺序运行的子管道组成的管道。其中一些子管道以相同的IR (30分钟TTL)运行数据流，但所有数据流都使用5分钟的启动时间。我记得这个方法以前是有效的。大概一个月前吧。我猜这可能是Azure Data Factory中的一个bug。

浏览 14提问于2021-04-10得票数 0

回答已采纳

1回答

设置管道google数据流的优先级

pipeline、google-cloud-dataflow

我是谷歌数据流的新手。我有两个数据流流水线来执行两个不同的任务。一个是ETL处理并加载到Bigquery，另一个是从Bigquery读取以聚合报告。我想先运行管道ETL，在它完成后，将运行报告管道，以确保bigquery中的数据是最新的更新。我试着在一条管道上跑，但它不起作用。现在我必须先运行手动ETL，然后再运行报表管道。谁

浏览 14提问于2017-08-11得票数 0

2回答

无法为ADF数据流中的参数化源数据集指定参数

azure-data-factory

我有一个数据流，它有一个参数：TableName。流中用作源的数据集将为TableName参数( Server数据集)进行参数化。在ADF数据流中选择源设置中的此数据集时，它不允许我设置TableName参数，就像在标准CopyActivity中设置源时一样。那么，如果数据流不允许您设置参数，那么如何在数据流中使用参数化数据集呢？

浏览 0提问于2020-08-06得票数 2

回答已采纳

1回答

大约25天后Google数据流管道挂起

google-cloud-dataflow、apache-beam

我们正在运行多个数据流数据流管道，这些管道最终总是挂起，需要在运行25天后重新启动。管道是否有某种最大的运行时间？是否有任何建议的最佳做法来重新启动流式作业的频率更频繁，即使没有代码更改(即，我们是否应该每两周重新启动管道?1周？)

浏览 0提问于2019-03-22得票数 1

1回答

我可以在单个apache beam代码中使用多个Runner吗？

apache-spark、etl、google-cloud-dataflow、apache-beam

我是新来的阿帕奇光束。到目前为止，我的理解是，apache beam只不过是ETL处理的工具。Runner可以被称为CPU、内存和存储的集合。我的问题是，我可以在单束python代码中使用两种或更多类型的runner吗？例如，一个runner用于数据流，另一个用于spark，第三个用于directrunner，像这样？

浏览 29提问于2020-06-29得票数 1

1回答

在google作业上安装chromedriver

python、selenium、web-scraping、selenium-chromedriver、google-cloud-dataflow

我想将一个刮刮的容器式python应用程序迁移到一个apache管道上，我可以在数据流上运行这个管道。我的刮取应用程序使用2种刮擦方法:卷曲响应和selenium色度驱动程序。在本地运行应用程序时，所有操作都很好，因为刮取正在使用这两种方法成功运行，因为我在本地计算机上安装了chromedriver。现在的问题是数据流。我知道google数据流是无服务器的。我只是想知道是否有一种

浏览 3提问于2022-05-30得票数 1

1回答

与ADF数据流相关的成本

azure-data-factory、azure-data-factory-2

Azure Data数据流的成本是多少？账单是否取决于我们创建的数据流/集成运行时？此外，账单是否取决于我们从创建ADF数据流时开始运行管道还是开始计费？如果是这样的话，在Azure中是否有禁用/暂停ADF数据流帐户的选项？

浏览 4提问于2020-04-30得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云