我正在尝试使用Samza Runner从here运行单词计数演示。这是我的build.gradle plugins {
id 'eclipse'
id 'java'
id 'application'
// 'shadow' allows us to embed all the dependencies into a fat jar.
id 'com.github.johnrengelman.shadow' version '4.0.3'
}
mainClassName =
我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是,apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码,压缩类型被硬编码为UNCOMPRESSED。
有没有一个技巧来读取压缩的拼图文件,而不需要在GCS中预先解压缩文件?如果这是唯一的方法,有没有办法在GCS中直接解压缩文件?
当我尝试使用direct runner从Apache光束调用我的Spring应用程序时,我得到了下面的异常。 org.apache.beam.sdk.Pipeline$PipelineExecutionException:
java.lang.IllegalAccessError: class
io.grpc.internal.CensusTracingModule$TracingClientInterceptor tried to access
private field io.opencensus.trace.unsafe.ContextUtils.CONTEXT_SPAN_KEY
收到以下消息:The Dataflow appears to be stuck. Please reach out to the Dataflow team at http://stackoverflow.com/questions/tagged/google-cloud-dataflow.
我意识到还有关于同一错误消息的其他问题,但每个错误消息的上下文似乎不同,并且消息相当通用,所以我再次发布。
作业ID: 2017-09-25_09_27_25-5047889078463721675
请协助。谢谢。
编辑:在从2.0.0更新到用于Python 2.1.1的Apache光束SDK后,问题似乎
通过调用函数ReadableFile.readFullyAsUTF8String,尝试使用数据流作业中的apache光束FileIO读取大小为10+ GB的CSV文件。而且,它失败了,错误如下。
读取大小超过INTEGER.MAX_VALUE的文件似乎失败。敬请指教。
at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117)
at ja
我的项目运行的是Python2.7(是的,我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同:
p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource(
query=get_query(limit),
use_standard_sql=True)))
然而,此管道的读取步骤非常慢-很可能是由于读取.avro文件所致。不过,看起来fastavro似乎并没有真正被使用。AFA
我正在执行一个查询:在扳手中执行"SELECT e.name,d.name FROM emp as e, department as d WHERE e.dept = d.dept;",它在扳手控制台上工作得很好。但是,当我尝试使用Apache光束来触发相同的查询时,它给出了一个错误消息:
java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: com.google.cloud.spanner.SpannerException: INVALID_ARGUMENT: io.grpc.Statu
我有一些关于Python的工作知识,但对Apache光束来说还是个新手。我遇到了一个来自Apache光束的例子,是关于一个简单的字数统计程序。让我感到困惑的代码片段如下所示: pipeline_options = PipelineOptions(pipeline_args)
pipeline_options.view_as(SetupOptions).save_main_session = save_main_session
with beam.Pipeline(options=pipeline_options) as p:
# Read the text file[p
我在从本地机器向我们的云平台提交Apache光束示例时遇到了问题。
但是当我尝试运行python wordcount示例时,我得到了以下错误:
IOError: Could not upload to GCS path gs://my_bucket/tmp: access denied.
Please verify that credentials are valid and that you have write access
to the specified path.
令人困惑的是,每个关于数据流的谷歌文档都说它现在是基于Apache光束的,并将我引导到光束网站。此外,如果我查找github项目,我会发现google dataflow项目是空的,并且所有的项目都转到apache see repo。假设我现在需要创建一个管道,根据我从Apache光束中读到的,我会这样做:from apache_beam.options.pipeline_options然而,如果我使用google-cloud-dataflow,我会得到错误:no module named 'options',结果我应该使用from apache_beam.utils.pipel