为dynamodb导入将parquet转换为json_将JSON导入DynamoDB_将CSV转换为DynamoDB JSON格式 - 腾讯云开发者社区

pyspark、amazon-dynamodb

我正在使用AWS Glue作业在s3中以拼图格式备份dynamodb表，以便能够在雅典娜中使用它。如果我想使用这些拼图格式的s3文件来恢复dynamodb中的表，这就是我的想法-读取每个拼图文件并将其转换为json，然后将json格式的数据插入到dynamodb中(使用下面几行中的pyspark ) # set sql context parquetFile = sqlContext.read.parquet(input_file) parquetFile.write.json(output_path) 使用- https://github.com/Alonreznik/dynamodb-

浏览 19提问于2019-12-29得票数 1

回答已采纳

3回答

将Avro转换为Parquet格式

apache-pig、sqoop、avro、parquet、apache-crunch

我想从数据库中导出数据，并转换为Avro + Parquet格式。Sqoop支持Avro导出，但不支持拼图。我尝试使用Apache Pig，Apache Crunch等将Avro对象转换为Parquet，但都没有结果。阿帕奇猪给了我“原因: org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。 Apache Crunch总是抛出:java.lang.ClassNotFoundException: Class Hadoop not found“，尽管我将它添加到了Hadoop lib

浏览 5提问于2014-05-06得票数 2

2回答

让DynamoDB数据在雅典娜搜索的正确方法？

amazon-dynamodb、amazon-athena

我需要一个缓慢变化的AWS DynamoDb，定期地抛到S3上，用于在雅典娜上查询它。需要确保雅典娜可以获得的数据不会落后于DynamoDb上的数据(最大延迟1小时)。我知道有以下两种方法：使用EMR (从数据管道)对整个进行DynamoDb 这种方法的优点是，使用单个EMR脚本(每小时运行)，可以在S3上直接搜索压缩的Parquet文件。然而，这种方法的一个很大的缺点是，虽然一个小时内只有少量的记录发生变化，但需要进行整个转储，这就需要DynamoDb中的读取容量和更高的EMR资源。使用来反映DynamoDb在S3上的任何更改。这样做的优点是不需要在DynamoDb上

浏览 1提问于2018-10-18得票数 6

3回答

只导入带有AWS的DynamoDB

amazon-dynamodb、aws-cli

我的目标是有一个简单的工具将dynamodb导出到本地文件(json/csv)，如果可能的话，只使用aws cli或更少的第三方。我桌子的大小大约是500毫巴。我已经做了几天的研究了，我看到了非常好的项目，比如dynamodump和另一个SDK实现。此外，我还测试了亚马逊的Datapipeline，但是对于我所针对的任务，我想要简单的aws cli。假设我已经有了索引和attributes.Now等表的地图，我只想导入我所拥有的项目。对我来说，实现的最佳解决方案是这样的：将表从aws导出到本地文件：aws dynamodb scan --table-name SOMETABLENAM

浏览 0提问于2019-02-18得票数 7

2回答

FastAPI返回大量JSON数据的速度非常慢

python、json、pandas、dataframe、fastapi

我有一个FastAPI GET端点，它返回大量JSON数据(~160,000行和45列)。毫不奇怪，使用json.dumps()返回数据的速度非常慢。我首先使用json.loads()从文件中读取数据，然后根据输入的参数对其进行过滤。是否有比使用return data更快地将数据返回给用户的方法？在目前的状态下，这需要近一分钟的时间。我的代码当前如下所示： # helper function to parse parquet file (where data is stored) def parse_parquet(file_path): df = pd.read_parquet(f

浏览 45提问于2022-09-01得票数 2

回答已采纳

1回答

aws dynamodb导入/导出JSON格式

json、amazon-web-services、amazon-dynamodb、export、importerror

我已经以这种格式从aws dynamodb导出了JSON文件： [ { "__typename": "Article", <snip> } <snip> ] 这将导致“无效的JSON”错误： aws dynamodb batch-write-item --request-items file://Article.json Error parsing parameter '--request-items': Invalid JSON: 正确的格式是()如何导出DynamoDB，以便我可以轻松地将它导入到表中

浏览 16提问于2022-08-28得票数 0

1回答

使用PHP将CSV或JSON文件导入DynamoDB

php、json、csv、amazon-dynamodb

浏览 2提问于2017-03-31得票数 0

回答已采纳

1回答

Runtime.ImportModuleError:错误:找不到模块'onCreateRadonData‘

amazon-web-services、aws-lambda、serverless-framework、aws-appsync

我正在尝试使用AppSync和Serverless将DynamoDB流部署为lambda函数。部署进行得很顺利，没有任何错误。但是当我触发lambda在我的DynamoDB表中创建一个新实例时，它失败了，抛出了这个错误： { "errorType": "Runtime.ImportModuleError", "errorMessage": "Error: Cannot find module 'onCreateRadonData'\nRequire stack:\n- /var/runtime/UserF

浏览 302提问于2021-08-01得票数 1

2回答

如何使用python备份dynamodb？

amazon-dynamodb

是否有一种使用的python脚本将dynamodb表备份到JSON文件的快速方法

浏览 5提问于2014-04-15得票数 2

回答已采纳

1回答

Scala重新分区无法解析符号

scala、apache-spark、spark-dataframe、amazon-emr

我试图保存我的数据文件aa拼板文件与一个分区，每天。所以试着使用日期列。但是，我希望每个分区都编写一个文件，所以使用repartition($"date")，但是仍然会得到错误：这个错误"cannot resolve symbol repartition"和"value $ is not a member of stringContext"当我使用， DF.repartition($"date") .write .mode("append") .partitionBy("date")

浏览 0提问于2018-03-26得票数 2

回答已采纳

1回答

雅典娜:数据类型`struct<tag1:string，tag2:string>`等同于`map<string，string>`吗？

amazon-athena

我的数据流是：json -> parquet -> Athena，但是嵌套的键值字段tags有一个问题。 JSON文件是 [{"myid":1,"name":"foo","tags":{"tag1":"a","tag2":"b"}}, {"myid":2,"name":"bar","tags":{"tag1":"c","tag2":"d

浏览 20提问于2019-11-23得票数 0

回答已采纳

1回答

Dask的性能与数据处理

dask

我已经进口了一份大约的拼花文件。800 50~5000万行进入dask数据帧。有5列：DATE, TICKER, COUNTRY, RETURN, GICS 问题：如何在read_parquet中指定数据类型，或者必须使用astype来实现？我可以在read_parquet中解析日期吗？我只想做以下几点：将dask.dataframe导入为dd dd.read_parquet('.\abc.gzip') df‘’INDUSTRY‘= df.GICS.str0:4 n= df.INDUSTRY.unique().compute() 它需要永远的回归。我在这里做

浏览 0提问于2018-12-12得票数 1

2回答

使用Parquet-tools.jar从Parquet文件中转储特定列

hadoop、parquet

我想使用parquet tools-1.8.1.jar.只转储某个文本文件上的特定列，但无法这样做。我正在尝试下面的命令。请注意，我的列名有正斜杠。 parquet-tools-1.8.1.jar dump --column 'dir1/log1/job12121' '/hdfs-path/to/parquet file with space.parquet' > /home/local/parquet/output.text

浏览 4提问于2016-07-20得票数 2

1回答

使用Python将Perl模块转换为JSON

python、json、perl

我有一个Perl (.pm)文件，我一直在尝试将它放入JSON表示中，这样我就可以在其中搜索关键字。我的脚本的目录是/Devices/bin/script.py。/Devices/Devices.PM为上一级的.pm文件所在的目录。Devices.PM只是一个静态文件，其中包含的数据结构类似于字典和列表： mylist = ( blah => { other =9, houses => 1, etc => [ { etc => '5',

浏览 4提问于2017-04-21得票数 1

2回答

将拼花文件从S3加载到DynamoDB

amazon-web-services、amazon-s3、amazon-dynamodb、amazon-emr、parquet

我一直在寻找从S3到DynamoDB加载Parquet文件的选项(基本上是空的和还原的)。拼花文件本身是通过运行在EMR集群上的火花作业创建的。这里有几件事要记住，我不能使用AWS数据管道文件将包含数百万行(比如1000万行)，因此需要一个有效的解决方案。我相信boto (即使是批处理写入)可能没有那么有效？还有其他选择吗？

浏览 0提问于2019-04-23得票数 1

1回答

Snowflake:失败，出现异常java.io.IOException:org.apache.parquet.io.ParquetDecodingException:无法读取块-1中0处的值

snowflake-cloud-data-platform、snowflake-schema

在将拼图格式的数据从Snowflake卸载到s3之后，我创建了一个具有等效snowflake模式的Hive表，并将s3作为外部位置，但我得到以下错误： Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 看起来Snowflake卸载spark作业不支持旧格式。此问题在中有描述。雪花模式： create or replace TABLE table_name cluster by ( COL_1,

浏览 1提问于2020-06-30得票数 0

1回答

如何构造JSON模式以验证DynamoDB和RESTAPI？

python、json、rest、amazon-dynamodb、marshmallow

我正在编写一个REST，它将把几个复杂的对象存储到一个AWS DynamoDB中，然后当请求时，检索它们，对它们执行计算，并返回结果。这里是一个大的提取，简化，重命名，伪代码。 class Widget: def __init__(self, height, weight): self.height = height self.weight = weight class Machine: def __init__ (self, widgets): self.widgets = widgets def useful_met

浏览 0提问于2018-12-11得票数 1

回答已采纳

2回答

将JSON.Stringify转换为数字错误

json、node.js

var id = JSON.stringify(record.dynamodb.NewImage.id.N); //returns a number as a string like "42" var id = Number(JSON.stringify(record.dynamodb.NewImage.id.N)); //returns NaN 我尝试过parseInt、parseFloat等，但我不知道为什么不能将Stringify返回的字符串解析为一个数字。我该如何转换？

浏览 2提问于2018-07-12得票数 0

回答已采纳

2回答

重新处理所有记录- DynamoDB流

amazon-dynamodb、amazon-redshift、aws-lambda、amazon-dynamodb-streams

我正在使用带有Aws lambda函数的DynamoDB流+ firehose来同步我的数据和红移。我想知道是否有可能将所有DynamoDB记录添加到流中以进行重新处理。如果不是，正确的方法是什么？

浏览 13提问于2016-09-17得票数 3

2回答

Databricks:将镶木镶嵌表转换为增量表

apache-spark-sql、databricks、azure-databricks、delta-lake

我正在尝试将Databricks (Azure上的存储)中的现有表转换为Delta。根据提供的信息，这非常简单，我编写了两个sql语句来实现这一点： convert to delta default.tableName convert to delta parquet.`dbfs:/path/to/storage/` 这些语句根据输出消息运行OK。但是，当我尝试对表执行desc操作时，我发现Provider仅为parquet。为了验证，我对表中的一些记录运行了delete操作，这给出了错误： A transaction log for Databricks Delta was found at

浏览 2提问于2020-07-15得票数 2

2回答

我能够使用Talend job创建.csv文件，并且我想使用tSystem组件将.csv转换为.parquet文件？

talend

我有一个创建.csv文件的Talend作业，现在我想使用Talend v6.5.1转换.parquet格式。我能想到的唯一选择是，tSystem组件从.csv临时登陆的本地或目录调用python脚本。我知道我可以使用pandas或pyspark很容易地将其转换，但我不确定同样的代码是否适用于Talend中的tSystem。能否请您提供建议或说明- 代码： import pandas as pd DF = pd.read_csv("Path") DF1 = to_parquet(DF)

浏览 23提问于2019-07-10得票数 0

3回答

如何将现有的dynamo表架构导出到json？

amazon-web-services、amazon-dynamodb

为了测试的目的，我想将一些只有模式的dynamodb表复制到本地环境中。首先我试过： aws dynamodb describe-table --table-name Foo > FooTable.json 但是很明显，输出模式与来自create-table命令的输入模式不兼容： aws dynamodb create-table --cli-input-json file://FooTable.json --endpoint=http://localhost:8000 我想避免的是用aws dynamodb create-table --generate-cli-skeleton生成几

浏览 10提问于2017-02-07得票数 31

回答已采纳

1回答

AWS雅典娜使用填充错误数据的create表将Epoch转换为时间戳

python、amazon-s3、parquet、amazon-athena、epoch

为了测试雅典娜的查询，我已经加载了一个S3文件。将文件上传到S3后，我使用S3选择查询来检查数据。示例： Status Successfully returned 5 records in 460 ms Bytes returned: 3278 B { "test_date":1467936000 } 我使用这一个拼花文件使用以下查询创建表 CREATE EXTERNAL TABLE `test_table`( `test_date` timestamp) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.pa

浏览 1提问于2021-06-30得票数 1

回答已采纳

1回答

ClassCastException同时反序列化(加载到蜂窝表中)用avro模式支持的Parquet格式编写的小数

hive、avro、parquet

我试图使用Avro Schema(Avro Backed)将csv数据序列化为Parquet格式&再一次将其读入蜂窝表中。这将使用以下示例代码片段(用于序列化单个记录的示例代码)成功地序列化： import java.io.File; import java.io.IOException; import java.math.BigDecimal; import java.math.BigInteger; import java.nio.ByteBuffer; import org.apache.avro.Schema; import org.apache.avro.generic.

浏览 3提问于2016-03-02得票数 1

1回答

使用Dynamo DB运行AWS Lambda (将uuid转换为字符串)时出现str()错误

python、amazon-web-services、amazon-dynamodb、aws-lambda、boto3

我曾尝试在下面的代码中将uuid转换为字符串，但总是收到错误。不管我是否将str()与uuid.uuid4()分开声明，请参见下面的代码： from __future__ import print_function from decimal import * import boto3 import json from locale import str import uuid def my_handler(event, context): description = event['description'

浏览 0提问于2016-02-26得票数 0

1回答

如何使用Dynamodb全局表和Lambda@edge选择正确的区域？

amazon-dynamodb、aws-lambda-edge

我已经创建了一个Lambda函数，它从DynamoDB中检索一些数据，并输出一些JSON。我要做的是在lambda@edge中运行这个函数，并生成一个响应，我可以使用Cloudfront缓存它。我面临的问题是，我在DynamoDB中的数据被复制到(目前)两个地区(美国东部和欧盟西部1)，使用Global和lambda@edge显然在许多地区运行。这使我无法从lambda环境中使用AWS_REGION。例如，如果请求在我们-west-1中运行，则环境变量将反映这一点，并且它将尝试从我们-west-1中检索数据，在那里它实际上应该到达我们-东方-2。诚然，我还没有尝试过这一点(还没有)，我想

浏览 0提问于2019-04-04得票数 6

2回答

如何使用DynamoDB将数据上传到AWS DynamoDB

amazon-web-services、csv、file-upload、amazon-dynamodb、boto3

我对DynamoDB非常陌生，我想使用boto3 来上传数据(file.CSV) --下面的代码运行良好，但是每当我进行批量上传时，现有的数据就被删除，并插入CSV文件中的项。但是我想实现如果表是空的，插入CSV数据。如果表不为空，在不删除现有数据的情况下将CSV数据追加到DynamoDB表中，请指导我如何实现这些数据。 import boto3 import pandas as pd import json AdvgCountries_json = json.loads( pd.read_csv('data.csv').to_json(orient='records

浏览 13提问于2022-09-28得票数 0

2回答

在API网关中将DynamoDB数据格式化为普通JSON

json、amazon-dynamodb

就像问题一样我在dynamoDB上执行查询或扫描操作，使用上的dynamoDB代理服务为客户端读取数据，并得到DynamoDB格式的JSON数据作为答复。虽然我可以使用“方法响应”进行转换，但是当数据超过1000条记录时，由于方法响应中的foreach循环的限制，我无法处理它。在dynamodb或api网关中是否有一个标志或设置，使我得到普通的json，而不是dynamoDB格式的JSON？ DynamoDB格式的JSON示例 { "videos": [ { "file": { "S": "f

浏览 2提问于2018-07-17得票数 2

回答已采纳

2回答

与BOOL类型DynamoDB项目有关的问题

amazon-dynamodb、terraform

我正试图为表创建一个BOOL类型属性，如下所示： resource "aws_dynamodb_table_item" "items" { table_name = aws_dynamodb_table.dynamodb-table.name hash_key = aws_dynamodb_table.dynamodb-table.hash_key range_key = aws_dynamodb_table.dynamodb-table.range_key for_each = { "0" =

浏览 14提问于2021-12-09得票数 1

回答已采纳

1回答

boto3转换输出奇怪的格式

python-3.x、amazon-web-services、boto3

我正在AWS上编写Lambda函数。它检索一个DynamoDB项，我想以JSON格式将它返回给调用者。如果我不序列化这个项目，那么Python的json.dump函数就会出现错误。 from boto3.dynamodb.types import TypeDeserializer, TypeSerializer def serialize(dynamo_obj: dict) -> dict: serializer = TypeSerializer() return { k: serializer.serialize(v) for k, v

浏览 8提问于2022-05-26得票数 0

1回答

Hadoop中的日期处理

oracle、date、hive、sqoop

我是大数据/Hadoop生态系统的新手，我注意到日期并不总是以标准的方式跨技术处理。我计划使用带有Avro和Parquet文件格式的Sqoop将来自Oracle的数据摄取到HDFS上的Hive表中。Hive继续将我的日期导入到BIGINT值中，我更喜欢时间戳。我试过用“--地图列-蜂巢”覆盖.但还是不起作用。寻找关于处理此用例日期的最佳方法的建议。

浏览 2提问于2017-04-23得票数 0

回答已采纳

1回答

from_json出错:无法解析JSON格式的架构:无法识别的令牌“数组”：was期望(JSON字符串、数字、数组)

apache-spark、pyspark、parquet

parquet_path = /tmp/test-parquet t2.json的内容如下： { "id": "OK_good2", "some-array": [ {"array-field-1":"f1a","array-field-2":"f2a"}, {"array-field-1":"f1b","array-field-2":"f2b"} ] } 从t2.json创建

浏览 30提问于2022-06-08得票数 0

回答已采纳

2回答

找不到亚马逊DynamoDB iOS文件

ios、amazon-web-services、amazon-dynamodb

我正在尝试运行亚马逊DynamoDB的示例项目。由于某种原因，它在文件夹中的任何位置都没有DynamoDB.h文件，并且它试图在源代码中包含一个DynamoDB.h文件，因此我收到一个错误消息，指出DynamoDB.h未找到我试着在github上查找DynamoDB.h，但也没有找到。还有谁有这个问题吗？ This is the download link I'm using: https://github.com/awslabs/aws-sdk-ios-samples

浏览 2提问于2014-07-15得票数 0

1回答

具有Struct列类型的读/写部分

apache-spark、pyspark、apache-spark-sql、pyarrow、fastparquet

我想给Parquet写一个这样的Dataframe： | foo | bar | |-----|-------------------| | 1 | {"a": 1, "b": 10} | | 2 | {"a": 2, "b": 20} | | 3 | {"a": 3, "b": 30} | 我是用潘达斯和拼花做的： df = pd.DataFrame({ "foo": [1, 2, 3], "bar": [{&

浏览 8提问于2020-02-14得票数 4

回答已采纳

1回答

类型“set”的对象不是JSON可序列化的

python

我使用python3.6并连接到dynamodb来获取数据。在网上获得超过错误的json.dumps(item, indent=4, cls=DecimalEncoder)任何建议，我做错了什么。 import json import boto3 import decimal dynamodb = boto3.resource('dynamodb') table = dynamodb.Table('MY_TABLE') class DecimalEncoder(json.JSONEncoder): def default(self, o):

浏览 0提问于2018-10-14得票数 1

回答已采纳

1回答

如何使用Step函数中Lambda的输出在DynamoDB中插入空字符串？

amazon-dynamodb、jsonpath、aws-step-functions、aws-lex

我试图保存Lambda的输出，它使用Step函数调用Lex到DynamoDB。 Lex响应中的intentName有时是空(未知)。问题是，在将响应保存到DynamoDB的状态(任务)中，由于这个空字符串，我从DynamoDB获得了一个错误。是否有任何解决办法，可能使用JsonPath或Step函数的状态机图来插入空，或者在DynamoDB中没有插入该特定属性？下面是状态机的JSON： { "StartAt": "ProcessLex", "States": { "ProcessLex": { &#

浏览 0提问于2020-05-06得票数 0

回答已采纳

1回答

将DynamoDB响应转换为JSON

json、amazon-web-services、amazon-dynamodb

下面是我对dynamoDB的查询 var parse = AWS.DynamoDB.Converter.output; b.query(params, function(err, results) { if (err) { console.error("Unable to query. Error:", JSON.stringify(err, null, 2)); //callback(err); } else { console.log("Query succeeded.");

浏览 14提问于2020-03-03得票数 0

1回答

卡夫卡连接:读取JSON序列化的Kafka消息，转换为Parquet格式并以S3持久化

json、apache-kafka、parquet、apache-kafka-connect、s3-kafka-connector

我需要阅读来自Kafka主题的JSON序列化消息，将它们转换为Parquet并在S3中坚持。背景官方的支持Parquet输出格式，但是：必须将AvroConverter、ProtobufConverter或JsonSchemaConverter与ParquetFormat一起用于此连接器。尝试使用JsonConverter (不管是否有模式)都会导致NullPointerException和StackOverflowException。和。问题陈述因此，我正在寻找一种方法从最初用JSON格式编写的Kafka主题中读取消息，以某种方式将它们转换为JSON格式，然后将它们插入到

浏览 2提问于2021-05-20得票数 0

1回答

SQL如何修改JSON数据中的布尔值

sql、sql-server、json、database

如何修改SQLServer2016-JSON中Json数据的现有布尔值？下面是插入json数据的脚本。 DECLARE @a nvarchar(max) = N'{"employeeName":"Test","isActive":true}'; insert into TestTable(testId,name,jsonData) Values('1','Test',@a) 我尝试使用下面的查询进行更新，但是它返回无效的列名'false‘。 update TestTable set j

浏览 2提问于2017-07-21得票数 27

回答已采纳

5回答

如何在python中将JSON结果转换为Parquet？

python、json、parquet

按照下面的脚本将JSON文件转换为parquet格式。我正在使用pandas库来执行转换。然而，出现了以下错误: AttributeError：'DataFrame‘对象没有属性'schema’我还是个新手。这是我使用的原始json文件：{ "a"："01"，"b"："teste01“}，{ "a"："02"，"b"："teste02”} 我做错了什么？ import numpy as np import pandas as pd import pyarrow as

浏览 35提问于2019-12-02得票数 11

1回答

如何在不同的笔记本中使用"sqlContext“作为一个模块(Pyspark)

python、apache-spark、pyspark、jupyter-notebook、jupyter

我有一个笔记本a.pynb，它的功能是读取一个拼花文件的语句。我在另一个笔记本b.pynb中使用b.pynb，在这个新笔记本中，我调用a.pynb函数来读取这个拼花文件并创建一个sqltable。但它总是失败的 Error: global name sqlContext is not defined, 当它在两个笔记本中定义时。确切的代码： a.pynb ( Utils) sc = SparkContext.getOrCreate() sqlContext = SQLContext(sc) def parquet_read(file_name):

浏览 6提问于2017-08-14得票数 3

回答已采纳

1回答

由于列损坏，无法打开或查询.parquet文件

apache-spark、parquet、azure-data-lake、azure-stream-analytics、azure-synapse

我正在发送JSON遥测数据从到Azure数据湖Gen2串行化为.parquet文件。然后，我在池中创建了一个视图，可以连接到该视图并查询报表数据。每隔一段时间，我将运行一个查询并返回以下错误：处理外部文件的错误：“parquet文件中的无效元数据。元数据中的行数与parquet文件中的实际行数不匹配。”文件/外部表名称：'。当我尝试用"Apache“或任何其他Parquet查看器打开有问题的.paqruet文件时，它会出错，并且拒绝打开文件，抱怨名为'data‘的列没有定义。数据列是一个JSON字符串，包含来自IoT设备的各种传感器读数。向ADLS发送数据的S

浏览 4提问于2021-12-05得票数 1

回答已采纳

1回答

如何将Sqoop导入为JSON？

sqoop

我知道Sqoop支持将数据导入为Avro、Parquet、Text等格式，有没有办法将数据导入为JSON？使用Spark目前对我来说不是一个选择。

浏览 0提问于2019-02-27得票数 0

1回答

可以通过Glue将拼图文件从亚马逊网络服务s3加载到dynamodb吗？

amazon-s3、boto3、etl、aws-glue、aws-dynamodb

我正在寻找一个解决方案，从s3文件夹中读取拼图文件，并在做了几次转换后使用Glue转储到dynamodb中。 ETL Process s3-folder/parquet_file --> Glue_Transformation --> Dynamodb 请告诉我最好的解决方案是什么？谢谢

浏览 22提问于2021-05-29得票数 0

1回答

将csv文件转换为DynamoDB json格式

amazon-web-services、amazon-dynamodb、amazon-data-pipeline

我在托管在AWS S3桶中的CSV文件中存储了+700万条记录，我希望将它们加载到DynamoDB表中。我尝试过数据AWS管道服务，但是作业总是失败，因为该服务不支持导入CSV格式。因此，我首先应该将CSV数据转换成DynamoDB可以理解的格式。有什么办法让这个转变吗？

浏览 3提问于2016-03-11得票数 1

1回答

使用java将压缩数据压缩到DynamoDB中

java、compression、amazon-dynamodb

我已经读过下面的文档，它告诉我们如何在进入DynamoDB之前压缩数据。是否有可能将压缩格式的数据(大于1KB )和未压缩格式的其余数据推入DynamoDB？我的场景:将JSON字符串推入DynamoDB 检查JSON对象大小是否大于1KB。如果是，则压缩JSON字符串并将其更新为DynamoDB 如果不是，将JSON字符串更新为DynamoDB

浏览 1提问于2017-02-14得票数 3

1回答

用Mockito在Spark中模仿DynamoDB

scala、apache-spark、mockito、amazon-dynamodb、scalatest

我想模拟实用程序函数dynamoDBStatusWrite，这样当我的spark程序运行时，它就不会命中DynamoDB。下面是我的模拟和测试用例 class FileConversion1Test extends FlatSpec with MockitoSugar with Matchers with ArgumentMatchersSugar with SparkSessionTestWrapper { "File Conversion" should "convert the file to" in { val utility = moc

浏览 17提问于2019-10-25得票数 0

1回答

Runtime.importModuleError aws

javascript、amazon-web-services

我正在创建一个功能较少的服务器，在dynamoDb上使用appsync进行crud操作，并使用aws配置完成配置，并部署在cloud.After上，尝试在app同步中查询，获取错误Runtime.importModuleError。在lambda控制台层中有0。 AWS云开发工具包(AWS CDK)是一种开放源代码的软件开发框架，可以使用熟悉的编程语言定义云应用程序资源。 ﬁes通过提供一组对Java开发人员来说一致和熟悉的库来使用AWS服务。它提供了对API生命周期考虑的支持，例如凭据管理、重试、数据封送和序列化。 import * as cdk from 'aws-cdk-li

浏览 1提问于2022-10-07得票数 1

19回答

从DynamoDB导出数据

amazon-web-services、amazon-dynamodb、amazon-dynamodb-local

是否可以从DynamoDB表中以某种格式导出数据？具体的用例是，我想要从我的生产dynamodb数据库中导出数据，并将该数据导入到我的本地dynamodb实例中，这样我的应用程序就可以使用数据的本地副本，而不是生产数据。我使用作为DynamoDB的本地实例。

浏览 1提问于2013-09-19得票数 53

2回答

使用配置单元将Dynamodb导出到S3

json、hive、amazon-dynamodb、emr

我提到了这个链接：。我的hive脚本如下所示： DROP TABLE IF EXISTS hiveTableName; CREATE EXTERNAL TABLE hiveTableName (item map<string,string>) STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' TBLPROPERTIES ("dynamodb.table.name" = "test_table", "dynamodb.region"=

浏览 0提问于2017-07-19得票数 1