腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3060)
视频
沙龙
1
回答
Apache
beam
管道
Java
:
未按
顺序
写入
目标
文件
的
记录
azure-blob-storage
、
google-cloud-dataflow
、
apache-beam
、
dataflow
、
apache-beam-io
我正在使用
Apache
beam
管道
将csv
文件
从一个容器传输到Azure存储中
的
另一个容器,并且可以成功传输该
文件
,但
目标
文件
中
的
记录
不是按
顺序
进行
的
。下面是我用来传输
文件
的
代码。
浏览 19
提问于2021-05-04
得票数 0
1
回答
“一次尝试后
写入
ES时出错。当使用“PubSub to Elasticsearch”流模板时,不再允许尝试
elasticsearch
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
我们运行了一个Google批处理作业,它将数据
记录
写入
一个pubsub
管道
,并有一个单独
的
流作业,它使用“pubsub to elasticsearch”流模板从PubSub
管道
中提取数据,并将更新
写入
我们
的
但是,我们不得不终止
写入
Elastic
的
流作业,因为在1次尝试之后,我们遇到了多个“向ES
写入
错误”。再也不允许“错误”了。从PubSub读取并
写入
Elasticsearch
的
浏览 16
提问于2022-09-15
得票数 0
1
回答
DataFlow
管道
中Google Storage SDK中
的
Socket closed错误
google-cloud-storage
、
google-cloud-dataflow
、
apache-beam
我在我
的
DataFlow
管道
(2.29.0)中使用google-cloud-storage (1.54.0)将
文件
写入
Google Storage。我随机地看到了下面的错误。$onTrigger$1(ReduceFnRunner.
java
:1058) org.
apache
.
beam
.runners
的
错误消息.dataflow.worker.repackaged.org.
apache
.
beam
.runners.core
浏览 56
提问于2021-10-05
得票数 0
1
回答
云数据流云sql数据流运行器出现空指针异常
java
、
jdbc
、
apache-beam
、
apache-beam-io
我正在尝试使用云数据流来处理相当数量
的
记录
。我
的
源是google云存储,我
的
目标
是cloud SQL(MySQL)。我有以下代码要
写入
接收器(Cloud SQL)。=<PASSWORD>&useSSL=false" ) 当我使用DirectRunner运行
管道
时例外情况如下:
java
.lang.NullPointe
浏览 41
提问于2019-12-05
得票数 0
回答已采纳
1
回答
如何从GCP存储桶中读取
Apache
光束中
的
多个
文件
python
、
python-3.x
、
apache-beam
、
dataflow
、
apache-beam-io
我正在尝试读取和应用一些子集在GCP中
的
多个
文件
与
Apache
光束。我准备了两个
管道
,它们只适用于一个
文件
,但当我在多个
文件
上尝试它们时会失败。除此之外,如果可能的话,我会很方便地将我
的
管道
组合成一个
管道
,或者有没有一种方法来编排它们,使它们按
顺序
工作。现在
管道
在本地工作,但我
的
最终
目标
是使用Dataflow运行它们。我textio.ReadFromText和te
浏览 8
提问于2019-11-08
得票数 0
回答已采纳
1
回答
Apache
束流
管道
和毒丸
java
、
google-bigquery
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
我正在使用GCP数据流运行
Apache
Beam
管道
,并从worker那里获得了以下错误: Error message from worker:
java
.lang.RuntimeException:我正在使用
管道
将消息从PubSub写到BigQuery。在
管道
中,当将PubSub消息转换为TableRow时,我使用
的
是FailsafeElement<PubsubMessage, String>,并且在BigQuery中也有死信表,这样我就可以在转换后<em
浏览 8
提问于2022-09-15
得票数 0
1
回答
Apache
Beam
S3
文件
系统扩展总是需要aws区域输入,甚至在我
的
项目中不使用AWS
的
其他
管道
中也是如此
java
、
amazon-s3
、
google-cloud-dataflow
、
apache-beam
我有一个用
java
编写
的
项目,其中包含多个波束
管道
,我将其编译为jar
文件
,以便在服务器上执行。目前一切正常,我只是从GCP资源中读取,但我只是添加了一个
写入
S3
的
管道
。有没有办法在初始化时只注册用于特定
管道
的
文件
系统,而不是全面注册所有
文件
系统?我使用Maven打包Jar
文件
,然后通过传入该
管道
的
特定main来执行该
管道
(即)
浏览 45
提问于2019-01-05
得票数 1
回答已采纳
1
回答
束流
管道
(PY)输出不
写入
本地主机磁盘
python-2.7
、
google-cloud-dataflow
、
apache-beam
我正在学习
Apache
中
的
窗口&触发概念,目的是: 尝试了两种方
浏览 0
提问于2019-01-02
得票数 2
1
回答
如何同时使用destination_prefix_naming和default_file_naming在
Apache
中?
apache-beam
我有一个
Apache
管道
,它通过以下方式
写入
文件
: my_pipeline = ( | "WriteSomeFiles" >>
beam
.io.fileio.WriteToFiles(/to
浏览 5
提问于2022-02-10
得票数 0
回答已采纳
1
回答
当在google数据流上运行
apache
波束时,日文字符被损坏。
google-cloud-dataflow
、
apache-beam
、
apache-beam-io
我在google数据流上运行
apache
beam
管道
。它从GCS桶中读取数据,并在处理后
写入
GCS桶。这条
管道
处理日本数据。在堆栈驱动程序日志中,日语字符正在正确显示。但是当我看到o/p桶中
的
数据时,它就被破坏了。因此,我主要是在想,或者是在向GCS
写入
数据时,编码器没有设置,或者我们必须对GCS
文件
格式进行更改。解决这个问题需要帮助。-Dfile.coding=EUC -jar
目标
/jarname-其他波束选项
浏览 5
提问于2019-10-22
得票数 0
1
回答
从发布/订阅到ElasticSearch
的
Apache
光束流
java
、
elasticsearch
、
google-cloud-dataflow
、
apache-beam
、
elasticsearch-rest-client
我正在编写一个ElasticSearch streaming
管道
,它从Google Cloud PubSub中读取消息,并将其
写入
java
实例。目前,我使用
的
是direct runner,但计划在Google Cloud Dataflow上部署该解决方案。 首先,我编写了一个从PubSub读取和
写入
文本
文件
的
管道
,它可以正常工作。然后,当我尝试使用
Beam
的
ElasticSearch连接器执行写操作时,我开始遇到一些
浏览 31
提问于2019-11-21
得票数 0
回答已采纳
2
回答
如何使用火花转轮运行云数据流
管道
?
apache-spark
、
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
我读过
管道
,它基于
Apache
,可以与Spark或Flink一起运行。谢谢。
浏览 0
提问于2018-06-20
得票数 0
回答已采纳
2
回答
使用
Java
写入
数据库时
Apache
管道
中
的
异常处理
jdbc
、
apache-beam
、
apache-beam-io
当将简单
记录
写入
管道
末尾
的
Postgres表(可能是任何db)时,一些潜在
记录
违反唯一性约束并触发异常。据我所知,没有一种直接
的
方法来优雅地处理这些问题--
管道
要么完全出错,要么取决于跑步者,进入一个无休止
的
死亡螺旋。
的<
浏览 0
提问于2019-05-31
得票数 2
回答已采纳
1
回答
数据流
管道
上
的
Apache
梁StatusRuntimeException
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
、
dataflow
我正在使用
apache
_
beam
==2.24.0编写一个用python2.7编写
的
数据流
管道
。该
管道
的
工作是使用
beam
的
ReadFromPubSub批量使用订阅中
的
pubsub消息,对消息进行一些处理,然后将结果数据持久化到两个不同
的
bigquery表中。有很多我正在消费
的
数据。在运行
管道
之后,一切正常,但几个小时后,我开始得到异常: 已取消
的
org.
a
浏览 1
提问于2021-03-31
得票数 0
2
回答
适用于GenericRecord
的
Apache
光束编码器
google-cloud-dataflow
、
avro
、
apache-beam
我正在构建一个读取Avro通用
记录
的
管道
。要在阶段之间传递GenericRecord,我需要注册AvroCoder。文档指出,如果我使用泛型
记录
,模式参数可以是任意
的
:at org.
apache
.
beam
.sdk.c
浏览 2
提问于2018-12-13
得票数 7
3
回答
GCP数据流模板
的
分级支持?
maven
、
gradle
、
google-cloud-dataflow
、
archetypes
根据
的
说法,Dataflow工作模板
的
创建“目前仅限于
Java
和Maven”。但是,跨GCP
的
数据流站点
的
Java
文档是.至少可以这么说。
Apache
--可以理解--非常致力于Maven,但在体制上,我
的
公司把它
的
大部分精力都抛到了Gradle身上,以至于他们去年把他们所有的
Java
项目都迁移到了Maven上,并且拒绝重新引入它。然而,现在我们似乎陷入了僵局,因为我们有一个特定
的
目标</e
浏览 5
提问于2017-04-28
得票数 8
回答已采纳
2
回答
如何使用BigQuery处理数据流
管道
中
的
插入错误?
python
、
google-bigquery
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
目前,我只想在从Google实例执行
的
Python3脚本中创建一个
管道
,以执行来自Pubsub
的
每条消息
的
加载和转换过程(解析其中包含
的
记录
并添加一个新字段),最终将结果
写入
BigQuery表。import pubsub_v1, import
apache
_
beam
.io.gcp.bigquery import logging
浏览 0
提问于2019-11-14
得票数 3
回答已采纳
1
回答
从卡夫卡读取
的
Apache
光束给出了CoderException:
java
.io.EOFException
apache-kafka
、
google-cloud-dataflow
、
apache-beam
我已经实现了一个来自Kafka
的
光束
管道
读取,基于这里
的
文档:INFO: Kafka version : 0.10.2.0at org.
apache
.
beam
.runners.direct.Dire
浏览 1
提问于2017-04-04
得票数 3
2
回答
如何标记数据流中
的
已读
文件
?
python
、
etl
、
google-cloud-dataflow
、
apache-beam
、
windowing
我正在使用数据流从GCS存储桶中读取
文件
,并对其进行一些转换。为此,我使用了
beam
.io.ReadFromText()方法。标记已经读取
的
文件
的
最佳方式是什么,以便相同
的
文件
不会被数据流重复读取?
浏览 5
提问于2020-07-02
得票数 1
3
回答
在google cloud上训练神经网络时出现"Unable to get Filesystem for path“错误
python
、
csv
、
google-app-engine
、
terminal
、
google-cloud-platform
:然后,我验证了这两个csv
文件
是否在我
的
Google Cloud存储上
的
polar terminal-160506-mlengine因为我已经通过我
的
谷歌云存储控制台用我
的
眼睛确认了eval_set.csv存储在这个位置。这可能是权限问题,还是我没有看到
的
东西?我发现这个运行时错误
的
原因来自trainer.preprocess.py
文件
中
的
浏览 2
提问于2017-05-23
得票数 9
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
过去一年,Spotify最大一次数据流优化实践
Apache Spark 2.4 内置的 Avro 数据源实战
Kafka落选!InfoWorld最佳开源数据平台奖公布
程序员需要关注的十个大数据技术
大数据技术分享:十大开源的大数据技术
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券