Apache光束GCP在动态创建的目录中上传Avro_无法在angular7中拖动动态创建的目录(ckdDrag_在tmp文件夹中创建新目录并存储上传的文件 - 腾讯云开发者社区

google-cloud-platform、pipeline、dataflow、apache-beam

我想在GCP中创建一个流式Apache光束管道，它从Google Pub/Sub读取数据并将其推送到GCS。我有一个可以从发布/订阅中读取数据的位。我的当前代码看起来就像这样(从GCP Apache beam模板中挑选出来的) pipeline.apply("Read PubSub Events", PubsubIO.readMessagesWithAttributes().fromTopic(options.getInputTopic())) .apply("Map to Archive", ParDo.of(new Pu

浏览 25提问于2020-04-28得票数 1

回答已采纳

1回答

我正在试着写一个从bigtable中读取数据并将ByteString转换为一般记录的函数

apache-beam、google-cloud-bigtable

我正在尝试写一个BigTableAvroFn函数，它读取bigtable行，并使用apache光束将其转换为Avro通用记录.How我是否可以将行数据转换为一般记录？ pipeline.apply("Read from Bigtable", read) .apply("Transform to Avro", ParDo(new BigtableToAvroFn())); return pipeline.run(); } 静态类BigtableToAvroFn扩展了DoFn { @ProcessElement public void proces

浏览 0提问于2019-01-08得票数 2

1回答

Apache beam BigQuery视图

google-bigquery、apache-beam

在GCP BigQuery中，可以创建表的视图。文档在这里：https://cloud.google.com/bigquery/docs/views。我想知道是否有可能通过Apache光束在BigQuery中创建一个视图，如果可以，它不在文档https://beam.apache.org/documentation/io/built-in/google-bigquery/中。

浏览 9提问于2021-08-20得票数 0

1回答

Apache reading从GCS读取Avro文件并写入BigQuery

java、google-cloud-dataflow、apache-beam-io、avroio

正在运行java作业以读取Avro文件，但一直收到错误。我在寻求帮助- 这是代码- // Get Avro Schema String schemaJson = getSchema(options.getAvroSchema()); Schema schema = new Schema.Parser().parse(schemaJson); // Check schema field types before starting the Dataflow job checkFieldTypes(schema); // Create the Pipeline object with the

浏览 36提问于2020-06-01得票数 0

1回答

Dataflow中的自定义Apache Beam Python版本

python、google-cloud-dataflow、apache-beam

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。我知道打包定制包(例如私有的本地包)的可能性，正如官方中所描述的那样。这里有关于如何为其他一些脚本做这件事的答案是。这上面甚至有一个GIST的。但我还没有设法得到当前的Apache光束开发版本(或标记的版本)，该版本可在其官方存储库的主分支中获得，以便打包并将我的脚本发送到Google Dataflow。例如，对于最新的可用标记，其PiP处理的链接将是：git+htt

浏览 16提问于2017-07-27得票数 4

回答已采纳

3回答

数据流管道-“至少在没有输出或完成状态完成<STEP_NAME>的情况下，在步骤<TIME>中进行处理”。

google-cloud-platform、google-bigquery、google-cloud-dataflow、google-cloud-pubsub

因为我不允许在同一个线程中问我的问题，而另一个人有同样的问题(但不使用模板)，所以我正在创建这个新线程。问题是:我创建了一个数据流作业，从gcp中的一个模板到把酒吧/潜艇中的数据摄取到BQ中。在作业执行之前，这一切都很好。这份工作被“卡住”了，没有写任何关于烧烤的东西。我不能做这么多，因为我不能在模板中选择光束版本。这是一个错误： Processing stuck in step WriteSuccessfulRecords/StreamingInserts/StreamingWriteTables/StreamingWrite for at least 01h00m00s without

浏览 0提问于2019-05-24得票数 0

回答已采纳

1回答

如何读取GCP数据流中CombineFn函数的日志消息？

google-cloud-dataflow、apache-beam

我正在创建一个Apache光束流处理管道，以便在GCP数据流中运行。我有许多扩展DoFn和CombineFn的转换。在DoFn中，使用数据流作业详细信息中的日志窗口可以很好地显示日志。但是，不会显示来自CombineFn转换的日志。我尝试了不同的日志级别，但使用DirectRunner时，它们也显示得很好。下面是一些示例代码。为简洁起见，我将输入和输出更改为字符串，代码中有一些自定义类。 import java.io.Serializable; import org.apache.avro.reflect.Nullable; import org.apache.beam.sdk.code

浏览 15提问于2019-10-07得票数 0

1回答

Dataproc Spark 3.1中的Sqoop和Avro依赖问题

java、avro、sqoop、google-cloud-dataproc

我正在将GCP Dataproc中的spark 2.4.7升级到spark 3.1。我正在执行sqoop import并将数据加载到Parquet文件。该代码在Spark 2.4.7版本上运行良好，但在Spark 3.1中出现以下错误。 2021-01-29 10:57:25,383 ERROR sqoop.Sqoop: Got exception running Sqoop: org.apache.avro.AvroRuntimeException: Unknown datum class: class org.codehaus.jackson.node.NullNode org.apac

浏览 21提问于2021-01-29得票数 1

回答已采纳

1回答

如何使用Apache beam处理历史时间序列数据？

google-cloud-platform、time-series、google-cloud-dataflow、apache-beam

我有Apache光束模型来实时处理多个时间序列。部署在GCP DataFlow上，它将多个时间序列组合到窗口中，并计算聚合等。我现在需要对历史数据(相同(多个)时间序列数据)执行相同的操作，直到2017年。如何使用Apache beam来实现这一点？我知道我需要使用Apache光束的窗口属性来计算聚合等，但它应该接受2年前的数据实际上，我需要数据，如果我部署了相同的管道两年就会有数据。这是测试/模型训练目的所必需的

浏览 2提问于2019-06-21得票数 0

1回答

有没有办法在GCP数据流使用apache beam完成工作后进行处理？

java、google-cloud-dataflow、apache-beam

在GCP数据流状态为done/completed后，是否可以进行后期处理。我有一个进程，dataflow从GCP存储中批量读取一个文件，并执行一些外部api调用进行转换，然后写回另一个文件。在所有批处理完成后，我需要做一些额外的处理。有没有办法做到这一点？我正在使用Apache光束和模板来运行GCP数据流。

浏览 2提问于2021-07-30得票数 0

1回答

[Spring Cloud][ pubsub ]读取来自pubsub的avro消息

google-cloud-platform、spring-cloud、spring-cloud-stream、dataflow

我有一个数据流作业，它将avro消息写入PubSub： PubsubIO.writeAvros(Session.class).to(sessionTopic) 然后，我想处理Spring应用程序中的消息。一般来说，我使用的是org.springframework.cloud.spring-cloud-gcp-starter-pubsub和org.springframework.cloud.spring-cloud-stream-schema依赖项。 @Bean public PubSubInboundChannelAdapter messageChannelAdapter( @Qual

浏览 0提问于2018-05-11得票数 0

2回答

使用嵌套子目录的输入创建表。

hadoop、hive、avro、create-table、hive-configuration

我在诸如：/data/logs/[foldername]/[filename].avro这样的文件路径中有HDFS格式的Avro格式的数据。我想在所有这些日志文件(即表单/data/logs/*/*的所有文件)上创建一个Hive表。(它们都基于相同的Avro模式。) 我使用标志mapred.input.dir.recursive=true运行下面的查询 CREATE EXTERNAL TABLE default.testtable ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STOR

浏览 7提问于2014-06-26得票数 11

1回答

Apache波束错误:无法获取GCS的文件系统

python、google-cloud-platform、apache-beam

我试图写到GCS桶通过光束(和TF转换)。但我不断地发现以下错误： ValueError:无法获得路径文件系统. 和其他一些消息来源的答案表明，我需要pip install aache-beam[gcp]来获得与GCP工作的Apache的不同变体。因此，我尝试将培训包的setup.py更改为： REQUIRED_PACKAGES = ['apache_beam[gcp]==2.14.0', 'tensorflow-ranking', 'tensorflow_transform==0.14.0'] 这没什么用。我还尝试在代码的开头添加以下

浏览 0提问于2019-08-31得票数 0

2回答

在Apache /Dataflow的WriteToBigQuery转换中，如何使用Method.FILE_LOADS和Avro temp_file_format启用死信模式

python、google-cloud-platform、google-cloud-dataflow、apache-beam、fastavro

在这个中，Apache建议在写入BigQuery时使用死信模式。此模式允许您用'FailedRows'标记从转换输出中获取未能写入的行。然而，当我尝试使用它时： WriteToBigQuery( table=self.bigquery_table_name, schema={"fields": self.bigquery_table_schema}, method=WriteToBigQuery.Method.FILE_LOADS, temp_file_format=FileFormat.AVRO, ) 我的一个元素中的架构不匹

浏览 34提问于2022-09-03得票数 0

回答已采纳

1回答

从目录表创建带有模式的动态框架

python、boto3、boto、aws-glue、aws-glue-data-catalog

我已经通过API胶水中的create_table在目录表中创建了表。通过此代码示例，下面的代码正在目录中创建表。当我从这个表创建动态框架时，它是空的，没有模式。我想用这四列创建空的动态框架 response = client.create_table( DatabaseName= 'xxxxxxxxxx', TableInput={'Name':'xxxxxxxxxx', 'StorageDescriptor': { 'Columns': [

浏览 0提问于2019-10-07得票数 2

2回答

当我创建一个带有“存储为Avro”子句的hive表时，AVRO模式存储在哪里？

hive、schema、avro、metastore

至少有两种不同的方法可以创建一个以Avro数据为后盾的蜂窝表：基于Avro模式创建表(在本例中，存储在hdfs中)：创建表'org.apache.hadoop.hive.serde2.avro.AvroSerDe‘行格式SERDE ('avro.schema.url'='hdfs:///user/root/avro/schema/user.avsc')；存储为INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat’OUTPUTFORMAT 'o

浏览 0提问于2017-05-30得票数 14

回答已采纳

2回答

数据流容器中的特权/功能

google-cloud-dataflow

我正在尝试运行一个数据流应用程序，以便运行它的容器具有特权，或者至少具有特定的功能(例如CAP_SYS_PTRACE)。以为例，我可以用Apache光束这样运行它： python3 -m apache_beam.examples.complete.top_wikipedia_sessions \ --region us-central1 \ --runner DataflowRunner \ --project my_project \ --temp_location gs://my-cloud-storage-bucket/temp/ \ --output gs://m

浏览 5提问于2021-11-17得票数 1

1回答

如何在Google平台上配置特定的数据管道？

java、spring、google-cloud-platform、google-cloud-storage

我的任务是实现云运行中运行的后端服务(Java/Spring)，并在GCP中创建(配置)数据管道，该管道使用此服务自动处理带有嵌入式模式的Avro文件，并将其上载到云存储桶中。当新文件上传到桶中时，我需要处理它，并以特定的方式将它解析到BigQuery。因此，我成功地部署了Spring应用程序并设计了avro模式。我发现谷歌有关于如何将avros加载到BigQuery 的例子，我认为这可以应用于这项任务。我坚持上传事件(或者数据管道配置？)。我真的不知道如何处理文件上传事件(我想我需要在上传新文件时获得URI )。我试着读到关于的文章，但我不认为这是我的任务所需要的。你能给我一些关于我该怎

浏览 0提问于2020-11-01得票数 0

回答已采纳

1回答

没有从avsc架构创建的配置单元表的数据

hive、sqoop

我将mysql中的数据以avroformat格式导入hdfs。我将.avsc文件移动到hdfs，并使用.avsc文件创建配置单元表。请参考下表： .AVSC文件：-rw-r--r-- 3 jonnavithulasivakrishna hdfs 1041 2017-09-13 00:05 hdfs://nn01.itversity.com:8020/user/jonnavithulasivakrishna/products.avsc 已创建的表： hive (siv_sqoop_import)> CREATE EXTERNAL TABLE Products_1

浏览 2提问于2017-09-13得票数 0

1回答

如何在avro中引用java类

avro

我在java中创建了ClassA，它有一些自定义注释，我不能创建avro记录的一部分。我想在avro中定义协议rpc来返回自定义的java类。类似于： @namespace("org.test.avro.service") protocol TestService { org.test.avro.domain.ClassA methodA(); } 它显示org.apache.avro.compiler.idl.ParseException:未定义的名称'org.test.avro.domain.ClassA‘

浏览 4提问于2016-05-24得票数 0

1回答

对于GCP上的数据管道，最好的服务是什么

google-app-engine、google-cloud-platform、devops、google-kubernetes-engine

我想在GCP上的项目上部署服务(使用Apache光束的python脚本)，执行时间有时长达24小时。我需要这个服务与数据管道始终工作。此外，我还有一个web应用程序，它将使用来自数据管道的结果。我的解决方案是，我在GCP app Engine上部署web应用程序，在K8s集群上部署python脚本，因为作业可以持续24小时，而且App Engine是无服务器的，所以serverless中的所有东西都应该是短时间的作业，比如15分钟。我的想法是否正确，或者您是否有其他更好的解决方案可供GCP服务参考。

浏览 9提问于2021-01-10得票数 0

回答已采纳

2回答

无法从给定路径读取架构:hdfs://.avsc

hadoop、hive、hdfs、sqoop

我试图通过以下步骤创建一个蜂巢表：使用sqoop将数据加载到hdfs (已完成) sqoop还创建了一个avsc文件，我将其上传到hdfs。在单元格中，我希望使用以下语句创建一个表：命令： CREATE EXTERNAL TABLE kontoauszug ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputForma

浏览 14提问于2016-07-10得票数 1

1回答

使用Avro模式在Parquet数据上动态创建配置单元外部表

hive、avro、parquet

我正在尝试动态地(不列出Hive DDL中的列名和类型)在拼图数据文件上创建一个Hive外部表。我有底层拼图文件的Avro模式。我尝试使用下面的DDL： CREATE EXTERNAL TABLE parquet_test ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS PARQUET LOCATION 'hdfs://myParquetFilesPath' TBLPROPERTIES ('avro.schema.url'='http:/

浏览 0提问于2015-12-09得票数 3

回答已采纳

1回答

用Apache Beam编写快速压缩的拼图文件

parquet、apache-beam、snappy

我正在尝试使用Snappy压缩在Apache光束中编写如下拼图文件 records.apply(FileIO.<GenericRecord>write().via(ParquetIO.sink(schema)).to(options.getOutput())); 我看到可以将AUTO、GZIP、BZIP2、ZIP和DEFLATE设置为压缩，但我找不到一种方法将其设置为SNAPPY，您有什么想法吗？作为参考，可以对avro使用wrting，如下所示 records.apply("writeAvro", AvroIO.writeGenericRecords(schema

浏览 6提问于2018-11-30得票数 4

2回答

使用Python在Google - Apache束中通过推断模式读写avro文件

python、google-cloud-platform、google-cloud-dataflow、avro、apache-beam

问题:我正在尝试创建一个云数据流管道，该管道使用Python从Google读取文件，并在Google上进行一些处理和回写一个Avro文件。在研究了Apache网站上提供的一些示例之后，我尝试运行以下代码。我使用了ReadFromAvro和WriteToAvro函数。我试图实现的是读取一个Avro文件并使用Dataflow编写相同的Avro文件，但是它给了我以下警告，并且没有输出一个avro文件。警告/错误 /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/apache_beam/io/g

浏览 9提问于2017-10-24得票数 3

回答已采纳

1回答

触发SQL数据帧以读取多个avro文件

apache-spark、apache-spark-sql、rdd、avro、spark-dataframe

正在尝试从hdfs加载avro。我有大约1000部分avro文件在一个目录中。我正在用这个来读它们- val df = sqlContext.read.format("com.databricks.spark.avro").load("path/to/avro/dir") df.select("QUERY").take(50).foreach(println) 如果我在path中只传递了1或2个avro文件，它就会起作用。但是如果我用400+文件传递一个目录，我会得到这个错误。每个avro大约是300mb。 org.apache.avro.Avr

浏览 2提问于2016-01-31得票数 0

3回答

无法从avro文件创建配置单元表

hive、create-table、avro

我可以使用以下语法在avro文件上创建一个表，而不会出现任何错误。乍一看，这是一张空桌子。 CREATE EXTERNAL TABLE tableName PARTITIONED BY (ingestiondatetime BIGINT, recordtype STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.serd2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat

浏览 4提问于2014-10-09得票数 2

1回答

配置单元中的import table命令如何获取模式？

apache-spark、hadoop、hive、schema、avro

我已经在Avro schema.Here中创建了一个表，它是创建脚本。 CREATE TABLE `old_db.MyTable`( `fileld1` string COMMENT '', `field2` string COMMENT '', `field3` string COMMENT '') ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apach

浏览 20提问于2019-02-22得票数 0

3回答

python火花阿夫罗

python、apache-spark、avro

当试图编写avro时，我得到以下错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 7 in stage 35.0 failed 1 times, most recent failure: Lost task 7.0 in stage 35.0 (TID 110, localhost): java.lang.ClassCastException: java.util.HashMap cannot be cast to org.apache.avro.mapred.AvroWrapper 我在一个

浏览 3提问于2015-04-14得票数 18

回答已采纳

1回答

使用数据流指定自定义用户代理

google-cloud-dataflow、apache-beam

我正在尝试通过定制用于不同GCP呼叫的用户代理。然而，它似乎总是退回到Apache_Beam_SDK_for_Java/2.6.0。看一下光束代码库，用户代理似乎是被数据流运行器：强制的。这是故意的吗？它应该是可定制的吗？编辑:通过--userAgent CLI标志指定它似乎也不起作用。

浏览 4提问于2018-11-15得票数 1

1回答

Google Dataflow:导入自定义Python模块

airflow、google-cloud-dataflow、apache-beam、google-cloud-composer

我尝试在Google Cloud Dataflow中运行Apache光束管道(Python)，这是由Google Cloud Coomposer中的DAG触发的。我的dags文件夹在各自的GCS存储桶中的结构如下： /dags/ dataflow.py <- DAG dataflow/ pipeline.py <- pipeline setup.py my_modules/ __init__.py commons.py <- the module I want to import in the pipeline se

浏览 16提问于2020-01-13得票数 2

1回答

如何创建有效的Avro格式文件nodejs

node.js、google-bigquery、avro

我正在尝试创建一个有效的avro文件，用于上传到google。 var avro = require('node-avro-io').DataFile.AvroFile(); var schema = { "name": "data", "type": "record", "fields": [ {"name":"key","type": "

浏览 2提问于2016-06-13得票数 0

回答已采纳

1回答

Apache Avro框架可以在序列化期间处理参数化类型吗？

java、generics、avro、parameterized、parameterized-types

Apache Avro能否在序列化期间处理参数化类型？当我尝试序列化一个使用泛型的实例时，我发现Avro框架抛出了这个异常。 org.apache.avro.AvroTypeException: Unknown type: T at org.apache.avro.specific.SpecificData.createSchema(SpecificData.java:255) at org.apache.avro.reflect.ReflectData.createSchema(ReflectData.java:514) at org.apache.avro.ref

浏览 7提问于2015-02-23得票数 3

2回答

数据流Flex模板验证失败，没有给出任何原因

python、google-cloud-dataflow、dataflow

我一直在编写一个数据流管道，并且正在使用flex模板。我的代码从avro读取并处理它没有问题。但是当涉及到WriteToAvro或WriteToText时，数据流作业会失败，而且看起来像是在模板验证时失败。我完全没有理由这样做。我试过很多方法。删除输出文件的参数并将其硬编码到中。为WriteToText切换WriteToAvro，但它还是失败了。 with beam.Pipeline(options=options) as p: read_from_avro = p \ | 'ReadFromAvro

浏览 9提问于2021-06-27得票数 0

3回答

正在写入Avro数据文件

file、avro、eofexception

下面的代码简单地将数据写入avro格式，并从写入的avro文件中读取和显示相同的数据。我只是在尝试Hadoop权威指南中的示例。这是我第一次能够执行。然后我得到了下面的错误。它第一次确实起作用了。所以我不确定我犯了什么错误。这是一个例外： Exception in thread "main" java.io.EOFException: No content to map to Object due to end of input at org.codehaus.jackson.map.ObjectMapper._initForReading(ObjectMapper.

浏览 3提问于2011-04-05得票数 3

1回答

带gcp云函数的apache光束

google-cloud-platform、google-cloud-functions、apache-beam、apache-beam-io

尝试在GCP云函数中创建GCP数据流。我已经部署了一个简单的apache函数，它工作得很好，但是当我试图读取文件时会出现路径错误。当我使用参数-runner从本地运行时，与Dataflowrunner一样，相同的脚本运行，有人建议我必须执行pip安装apache-beamgcp。我已经在当地做过了，而且效果很好。如果我试图在GCP中安装它，它会在一段时间后进行会话超时。下面是我的密码。 #import print library # This script will read all avro files on a path and print them import logging imp

浏览 11提问于2022-08-04得票数 1

回答已采纳

2回答

找不到主类Java

java、program-entry-point

我有两个类Pair.java和Users.java，其中Users.java有主程序。这两个java文件都在包userdetails下。在unix中，我使用命令编译它。 javac -d . -classpath avro-1.7.5.jar:lib/*:jackson-core-asl-1.9.13.jar:lib/* Pair.java Users.java 类位于“用户详细信息”文件夹下。我尝试使用命令运行 java -classpath avro-1.7.5.jar:lib/*:jackson-core-asl-1.9.13.jar:lib/* userdetails.Users

浏览 0提问于2013-11-14得票数 0

1回答

Apache Ignite是否支持序列化Avro对象？

avro、ignite、gridgain

我有Avro对象，想要序列化并存储在Apache Ignite (或Grid Gain)中。 Apache Ignite是否支持该数据格式？目标是基于动态请求从Avro中提取特定字段(如果支持该数据类型)。如果没有-解决方法是什么？谢谢。

浏览 8提问于2017-07-18得票数 0

1回答

使用Apache光束/数据流从BigQuery读取数据时使用fastavro

google-bigquery、google-cloud-dataflow、apache-beam

我的项目运行的是Python2.7(是的，我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同： p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource( query=get_query(limit), use_standard_sql=True))) 然而，此管道的读取步骤非常慢-很可能是由于读取.avro文件所致。不过，看起来fastavro似乎并没有真正被使用。AFA

浏览 0提问于2020-03-19得票数 0

1回答

春季: GCP Pub / Sub受抚养问题

java、spring、spring-boot、google-cloud-platform、google-cloud-pubsub

我正在尝试使用GCP我的Spring之一，我想要生成一个NodeJS消息，它将从堆栈中的其他地方使用。我添加了以下的依赖项，但是在我的项目中没有找到pubsub。这里有人能帮我吗。谢谢! 信仰者增加 implementation group: 'org.springframework.cloud', name: 'spring-cloud-gcp-starter-logging' implementation group: 'org.springframework.cloud', name: 'spring-cloud-gcp

浏览 5提问于2021-09-06得票数 0

3回答

ImportError:导入apache_beam作为梁。模块未找到

python、docker、pip、airflow、apache-beam

我已经在一个码头上安装了apache_beam Python和airflow。Python版本: 3.5 阿帕奇气流: 1.10.5 我正在尝试使用**DataflowPythonOperator**执行apache波束管道。当我从气流用户界面运行DAG时，我得到导入错误:导入apache_beam作为光束。模块未找到在相同的设置下，我尝试了**DataflowTemplateOperator**，它运行得非常好。当我尝试使用Python2和airflow 1.10.3进行相同的对接设置时，两个月前，操作符没有返回任何错误，而是按预期工作。在SSH进入码头后，当我在一个码头容器

浏览 1提问于2019-09-06得票数 1

1回答

使用Kafka Connect with jcustenborder / kafka-connect-twitter

apache-kafka、apache-kafka-connect

我正在尝试使用Kafka Connect和kafka-connect-twitter在Github的jcustenborder中将Twitter推文引入Kafka。说明书上写着： mvn clean package export CLASSPATH="$(find target/ -type f -name '*.jar'| grep '\-package' | tr '\n' ':')" $CONFLUENT_HOME/bin/connect-standalone connect/connect-avro-do

浏览 47提问于2021-11-12得票数 0

回答已采纳

1回答

将AVRO文件加载到BigQuery时出错

google-bigquery、google-cloud-storage、avro

我已经使用bq实用工具成功地将大量AVRO文件(相同模式类型的文件加载到相同的表中)，存储在Google中。但是，对于一些AVRO文件，在加载到bigquery时，我得到了非常神秘的错误，错误说： Apache库无法读取包含以下错误的数据: EOF到达(错误代码:无效) 当avro-tools验证AVRO文件没有损坏时，报告输出： java -jar avro-1.8.1.jar修复-o报告2017-05-15-07-15-01_48a99.avro恢复文件: 2017-05-15-07-15-01_48a99.avro文件摘要:块数: 51损坏块数:0记录数: 58598损坏记录数:0 我

浏览 0提问于2017-06-08得票数 1

2回答

IOException:不是数据文件

hive、sqoop

在使用Avro数据/模式创建Hive外部表时，我遇到了问题：采取的步骤如下：从MySQL - HDFS导入数据作为AVRO。将.avsc文件从本地传输到HDFS，打开该文件，模式就像预期的那样良好。作为SQOOP导入的结果，HDFS中已经验证了数据。现在创建了一个外部表，将模式指向步骤2，数据位置指向步骤# 3。 Hive命令行声明创建的OK表。ShotTables显示表，并验证从色调标注的文件位置是正确的。当从HIVE命令行查询表时，会得到一个错误： java.io.IOException:java.io.IOException:不是数据文件。 h

浏览 0提问于2016-09-11得票数 1

1回答

匿名调用方没有storage.objects.get访问Google对象的权限

google-cloud-platform、google-cloud-storage、google-dataflow

我有一个简单的Apache程序，它从gcp云存储中读取avro文件并将其写入大查询。 #import print library import logging import os import datetime #import apache beam library import apache_beam as beam from apache_beam import window from google.cloud import storage from google.oauth2 import service_account from google.cloud import languag

浏览 12提问于2022-07-03得票数 1

回答已采纳

1回答

BigQuery代码段中的错误

google-bigquery、dataflow

我是数据流的新手，并且尝试在大查询中动态获取表的模式。此外，我还需要在BigQueryIO.write.to()中使用动态目标类来动态获取目标表的名称。如果在执行管道之前为目标表提供了模式，那么它就会起作用。但是为了动态地获取模式，我使用了BigQuery片段，它接受datasetId和tableId作为输入，并返回给定表的模式。当尝试运行带有代码段的管道时，它会给出下面提到的错误。任何帮助都是非常感谢的。提前谢谢。 Exception in thread "main" java.lang.NoSuchMethodError: com.google.api.client.go

浏览 2提问于2018-07-06得票数 0

1回答

Apache KafkaIO.read()中的多个使用者组()

apache-beam、apache-beam-io

我在做阿帕奇光束流。我创建了一个流，它读取了大量的主题，并将所有数据放在GCS中。我的KafkaIO.reader是 KafkaIO.<String, AvroGenericRecord>read() .withBootstrapServers(bootstrapServers) .withConsumerConfigUpdates(configUpdates) .withTopics(inputTopics) .withKeyDeserializer(

浏览 8提问于2019-10-31得票数 1

2回答

是否可以用Snappy压缩将Avro文件加载到BigQuery？

google-bigquery、avro、snappy

我知道BigQuery支持Avro文件上传，并且我成功地将Avro文件加载到BigQuery中。使用以下命令， java -jar avro-tools-1.7.7.jar fromjson --codec snappy --schema-file SourceSchema.avsc Source.json > Output.snappy.avro 我已经生成了一个使用Snappy压缩并试图加载到BigQuery中的Avro文件，但是加载作业在以下错误中失败， Errors: file-00000000: The Apache Avro library failed to parse

浏览 5提问于2016-09-28得票数 1

回答已采纳

1回答

Apache安装

c、linux、gcc、avro

我正在做一个项目，我正在使用Apache。我下载了Apache for C，并按照提供的说明在我的系统上安装它(UbuntuLinuxv14.04)。安装之后，我在/include目录下有一些头文件，在/lib目录下有一些库。所有这些都是从Apache安装的。此时，我创建了我的C源文件，如下所示： 1) socket_client.h： #include <stdio.h> #include <sys/socket.h> #include <netinet/in.h> #include "avro.h" #include <errno

浏览 2提问于2014-06-19得票数 0

回答已采纳

1回答

允许在配置单元表的字段中使用空值

hive、avro

我正在从存储在hdfs中的avro文件创建一个配置单元表。而且，这个avro文件是从mongodb集合生成的。问题是有些字段有空值，我希望hive表中的字段除了应该存储的内容(如int、string、array等)之外，还可以接受null值。我使用以下命令创建了配置单元表 CREATE EXTERNAL TABLE pub_avro ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro

浏览 1提问于2018-07-25得票数 0