如何在不安装Hadoop和设置DLL库的情况下将数据加载到s3

java、amazon-web-services、hadoop、amazon-s3、parquet

如何在不安装Hadoop和不设置dll库的情况下，在不使用HADOOP_HOME的情况下将地块数据加载到s3中在java项目中需要使用什么样的依赖关系？现在我用 org.apache.hadoop-hadoop-common 3.2.1

浏览 10提问于2020-04-15得票数 1

1回答

从芹菜气流工人直接进口到S3桶

hadoop、amazon-s3、airflow、amazon-emr、sqoop

我的大数据基础设施包含气流和EMR，它们在两个独立的集群中运行。当前的数据ETL步骤如下， Sqoop数据到气流工作者(Hadoop2.7安装在伪分布式模式下)Sync数据到S3Access data on S3使用Spark (EMR运行hadoop 3.2.1)为了简化ETL过程，我觉得第二步完全没有必要，应该可以通过sqoop将数据直接加<

浏览 4提问于2021-10-28得票数 3

7回答

如何将Parquet文件读入Pandas DataFrame？

python、pandas、dataframe、parquet、blaze

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上，要么在S3中。我

浏览 22提问于2015-11-19得票数 146

回答已采纳

1回答

S3环境下电子病历集群中的问题解读

java、amazon-web-services、apache-spark、amazon-s3、amazon-emr

我正在开发一个关于Java的应用程序。生成并成功地将.jar加载到EMR集群。")); 不起作用。谢谢你能提供<em

浏览 0提问于2019-12-11得票数 0

回答已采纳

3回答

UnsatisfiedLinkError (NativeIO$Windows.access0)将mapreduce作业从windows提交给Hadoop2.2到ubuntu

java、windows、ubuntu、hadoop

我将运行在windows上的java应用程序的mapreduce作业提交给运行在ubuntu上的Hadoop2.2集群。在Hadoop1.x中，这与预期一样有效，但在Hadoop2.2中，我得到了一个奇怪的错误： org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z :java.lang.UnsatisfiedLin

浏览 3提问于2013-12-14得票数 13

12回答

如果没有hadoop，apache能运行吗？

hadoop、amazon-s3、apache-spark、mapreduce、mesos

火花和Hadoop之间有依赖关系吗？如果没有，那么当我运行而没有Hadoop时，是否会忽略一些特性？

浏览 10提问于2015-08-15得票数 119

回答已采纳

3回答

与在Amazon EMR上运行配置单元/Sqoop相关的查询？

java、amazon-s3、hive、amazon-emr、sqoop

我的用例：1)电子病历使用Hadoop存储桶，它保存输入和输出数据S3处理(以对象的形式)。->我不知道如何在S3上以对象的形式存储数据<

浏览 2提问于2012-04-23得票数 1

回答已采纳

3回答

在没有数据库的情况下验证PostgreSQL用户和密码

validation、postgresql、authentication、passwords

如何在没有数据库的情况下验证postgresql用户和密码是否有效？设置口令后，什么命令可以验证用户和</

浏览 0提问于2013-04-10得票数 3

2回答

EMR + Spark + KMS -保存解密数据

pyspark、amazon-emr、aws-kms

我们正在使用spark处理EMR中的KMS客户端加密数据。我可以使用以下配置成功处理加密数据，但即使是写入s3的聚合数据也是加密的。有没有办法在启用这些设置的情况下将未加密的数据写入s3？如果没有，我们如何在将其加载到RDS中进行报告之前对其进行解密？ sc._jsc.hadoopConfiguration()

浏览 4提问于2018-06-02得票数 0

2回答

加载或指向多个拼板路径，用于用蜂巢或预存储程序进行数据分析

amazon-s3、apache-spark、hive、parquet、presto

因为日期的每一天都有多个文件在路径下，如因此，问题之一是如何将多天的数据加载到蜂箱中。我知道hive可以支持分区，但是我的s3文件不是这样设置的。我还研究了，它似乎是这类数据分析最喜欢的工具。事实上，它支持ans

浏览 5提问于2016-04-14得票数 2

2回答

我在哪里可以找到EC2上的AMI for Hadoop？

linux、hadoop、amazon-web-services、amazon-ec2、bioinformatics

我正在尝试在亚马逊EC2上永久设置Hadoop。目前我正在做的是每天早上启动EC2实例并设置Hadoop。有什么方法可以避免这个繁琐的步骤吗？我正在寻找一个Hadoop镜像，可以加载到EC2上，让事情变得容易。我知道我可以将EMR用于hadoop服务。但我不知道如何在不提交作业流的情况下启动EMR (hadoop)集群。我的意

浏览 3提问于2013-10-09得票数 0

1回答

“为ApacheHadoop2.7及更高版本预先构建”意味着什么？

apache-spark

在Apache的下载页面上，“为ApacheHadoop2.7及更高版本预构建”意味着什么？这是否意味着HDFS必需的库？如果是这样的话，其他存储系统如Cassandra、s3、HBase、SQL数据库、NoSQL数据库又如何呢？我们是否需要下载任何库来连接到其他存储系统。

浏览 4提问于2017-09-14得票数 7

回答已采纳

1回答

将oracle文件(.dmp)文件读入熊猫数据

python-3.x、amazon-web-services、dataframe、amazon-s3、boto3

我有一个testdata.dmp在AWS s3桶中可用，并希望将数据加载到熊猫dataframe中。为了寻找解决方案，我已经安装了boto3。

浏览 3提问于2020-10-07得票数 1

1回答

利用Hadoop设计分析系统

hadoop、amazon、analytics、bigdata、emr

我刚刚开始了解大数据，我对Hadoop很感兴趣。我正计划建立一个简单的分析系统，以了解在我的网站上发生的某些事件。因此，我计划使用代码(前端和后端)来触发一些事件，这些事件将对消息进行队列(很可能是使用RabbitMQ)。然后，这些消息将由消费者处理，该使用者将连续地将数据写入HDFS。然后，我可以在任何时候运行一个地图减少作业来分析当前的数据集。我倾向于使用Amazon的<em

浏览 0提问于2014-01-10得票数 0

回答已采纳

3回答

如何在Amazon中安装sqoop？

hive、sqoop、amazon-redshift、amazon-emr

Hadoop发行版:Amazon2.6.0和Hive1.0.0。需要安装Sqoop以便我可以在Hive和Redshift之间进行通信吗？在EMR集群中安装Sqoop的步骤是什么？请求提供步骤。谢谢!

浏览 5提问于2015-08-13得票数 1

回答已采纳

2回答

在d2.2xlarge上耗尽空间

amazon-web-services、emr

我看到的是：devtmpfs 30G 92K 30G 1% /dev tmpfs

浏览 2提问于2017-09-05得票数 0

回答已采纳

2回答

处理存储在红移中的数据

hadoop、apache-spark、amazon-redshift

我们目前使用Redshift作为数据仓库，我们对此非常满意。然而，我们现在需要对我们仓库中的数据进行机器学习。考虑到所涉及的数据量，理想情况下，我希望在与数据相同的位置运行计算，而不是在数据周围移动，但这在Redshift看来是不可能的。我目前正在考虑将数据转移到EMR，并使用Apache机器学习库(或者H20、Mahout或其他什么)来处理它。所以我的<

浏览 1提问于2014-11-12得票数 3

1回答

是否可以使用python包使用大容量复制命令加载redshift。我看不出有什么办法

boto、amazon-redshift

是否可以使用python包使用大容量复制命令加载redshift。我看不出有什么办法做到这一点。似乎需要一个JDBC客户端。

浏览 1提问于2014-11-26得票数 0

1回答

如何在pentaho中访问配置单元表

mongodb、hadoop、hive、pentaho

我是用pentaho数据集成4.4.0，并使用mongo hadoop连接器，我成功地创建了hadoop和mongo的连接。然后我安装了hive 0.11.0，使用上面的链接，我成功地创建了hive和mongo连接。在我的mongo中，包含一个数据库名称，名为pentaho，我在hive name中创建了数据库，作为demo，并使用以下命令创建了新的表名为pent

浏览 1提问于2014-03-03得票数 0

2回答

是否有可能更新已经用S3编写的数据？

hadoop、amazon-s3、hdfs、rdbms、amazon-athena

谢谢你调查我的问题。我很感激。所以我是这个领域的新手.然而，我正在考虑用S3替换当前使用Hadoop的数据，但在此之前，我想知道是否有可能更新已经用S3编写的数据。Hadoop作为HDFS，您只写一次，多次读取，这不允许我更新已经写入的数据。我有一个RDB，我想集成到Hadoop中，但是失败了，因为这个RDB需要及时更新。我听说过S3，您可以使

浏览 3提问于2020-09-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从芹菜气流工人直接进口到S3桶

如何将Parquet文件读入Pandas DataFrame？

S3环境下电子病历集群中的问题解读

UnsatisfiedLinkError (NativeIO$Windows.access0)将mapreduce作业从windows提交给Hadoop2.2到ubuntu

如果没有hadoop，apache能运行吗？

与在Amazon EMR上运行配置单元/Sqoop相关的查询？

在没有数据库的情况下验证PostgreSQL用户和密码

EMR + Spark + KMS -保存解密数据

加载或指向多个拼板路径，用于用蜂巢或预存储程序进行数据分析

我在哪里可以找到EC2上的AMI for Hadoop？

“为ApacheHadoop2.7及更高版本预先构建”意味着什么？

将oracle文件(.dmp)文件读入熊猫数据

利用Hadoop设计分析系统

如何在Amazon中安装sqoop？

在d2.2xlarge上耗尽空间

处理存储在红移中的数据

是否可以使用python包使用大容量复制命令加载redshift。我看不出有什么办法

如何在pentaho中访问配置单元表

是否有可能更新已经用S3编写的数据？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐