如何高效地将同一路径下的多个文件加载到hadoop？

文章/答案/技术大牛

发布

1回答

shell、hdfs、hadoop2

例如:我在路径/home/doc/data/中有超过10个文件: 202012.txt，202101.txt，202102.txt.如果我想加载2021的所有文件，我必须使用： hadoop fs -copyFromLocal /home/doc/data/202101.txt /home/doc/data/202102.txt /$HDFSLOCATION 有没有什么有效<e

浏览 16提问于2021-04-07得票数 1

1回答

是否可以将蜂巢数据加载到Vora中？

hive、sap、hana、vora

到目前为止，我能够将CSV和ORC文件从HDFS加载到Vora，但能够从Hive加载吗？在没有将Hive指定为源的情况下，我尝试使用等于/app/hive/仓库/tablename/00000_0的“路径”(或任何部分文件名)。但是，如果一个Hive表是由/tablename/目录中的多个文件表示的，我必须将它们

浏览 2提问于2016-06-02得票数 0

回答已采纳

1回答

将多个文件输送到HDFS

hadoop、pipe、hdfs

我正在尝试将gzipped文件从远程计算机上的目录加载到本地计算机的HDFS上。我希望能够从远程机器读取pipe文件，并将它们直接输送到本地计算机上的HDFS中。/hadoop" 这显然将所有gzipped文件从指定的远程路径复制到我执行命令的路径，并将一个空文件-加载到HDFS中。如果我在没有tar

浏览 1提问于2014-12-19得票数 2

回答已采纳

1回答

安装后Hadoop* 2.6中没有文件夹*

hadoop、mapreduce、apache-pig、hdfs、bigdata

我是Hadoop的新手。我通过下面的链接成功地在我的Ubuntu 12.04中安装了Hadoop2.6。 hduse@vijee-Lenovo-IdeaPad-S510p:~$ jps 4163 SecondaryNameNode/share

浏览 0提问于2015-12-22得票数 0

2回答

正在解密HDFS上的PGP文件

scala、apache-spark、encryption、hdfs、pgp

我们是在scala的"com.didisoft.pgp.PGPLib“的帮助下解密PGP文件的。这可以很好地处理本地文件，但是当我们为HDFS文件运行它时，我们会遇到类似"File not found exception for securingkey“的问题。即使用unix的gpg工具做同样的事情，当传递HDFS文件的路径时，我们也会遇到<e

浏览 1提问于2017-05-02得票数 1

2回答

具有数百万条记录插入的Hadoop后端

hadoop、hive、hiveql

我是hadoop的新手，有人能建议我如何上传数百万条记录到hadoop吗？我能用蜂箱做这件事吗?我在哪里能看到我的hadoop记录？到目前为止，我一直使用hive在hadoop上创建数据库，并使用localhost 50070访问它。但是我无法将数据从csv文件从终端加载到hadoop。因为它给了我错误：失败:语义分析错误:第2:0行无效路径‘/用户/本地&

浏览 0提问于2015-09-29得票数 1

回答已采纳

1回答

使用python在一个文件中搜索多个字符串，这非常节省时间。

python、string、list、performance、file

我有一个很长的字符串列表来查看一个非常大的文件。line in file: if word in line::然而，我正在寻找一种有效的方法来完成这项工作

浏览 0提问于2020-06-25得票数 2

3回答

我是个新手对hadoop和Hbase。我想将.csv文件导入到Hfile中。我在HDFS中有一个csv文件"testcsv.csv“。hbase org.apache.hadoop.hbase.mapreduce.ImportTsv '-Dimporttsv.separator=,' -Dimporttsv.columns=HBASE_ROW_KEY,basic:G1,basic:G2, testTSV /user/hadoop/

浏览 1提问于2015-07-05得票数 0

回答已采纳

4回答

将大型XML解析为TSV

hadoop、xml-parsing、saxparser、bigdata

我需要将很少的XML解析成TSV，XML文件的大小是50 GB，我基本上对实现有疑问，我应该选择解析这个--我有两个选项我对Hadoop的实现有相当的了解，但我认为如果能够访问Hadoop集群，我应该使用hadoop，因为这就是hadoop用于大数据的目的。如果有人能提供一个提示/文档来说明如何在Hado

浏览 5提问于2012-02-24得票数 0

回答已采纳

1回答

将多个客户端数据加载到Hadoop的最佳实践

sql-server、hadoop、hive、sqoop、cloudera-quickstart-vm

我们正在使用Cloudera在Hadoop框架上创建POC。我们希望将多个客户端的数据加载到Hive表中。到目前为止，我们对Server上的每个客户端都有单独的数据库。Hadoop将用于OLAP。我们有一些主维度表，它们对每个客户端都是相同的。所有客户端数据库都有完全相同的架构。这些表具有相同的主键值。到目前为止，这是很好的，因为我们有单独的客户数据库。现在，我

浏览 4提问于2016-01-27得票数 2

回答已采纳

1回答

Krb5.执行器吊舱上的Kubernetes和hadoop.configMap :Kubernetes上的火花

apache-spark、kubernetes

所需的是，集群可能需要连接到启用了外部Kerberos的Hadoop集群，或者任何其他启用Kerberos的数据源，如Kafka。根据文档( )，我通过设置scapk.kubernetes.kerberos.krb5.configMapName和Hadoop配置来提供krb5配置，方法是使用适当的配置映射设置spark.kubernetes.hadoop.configMapName在连接到启用Kerberos的数据源(如Kafka或JDBC上的

浏览 18提问于2022-01-09得票数 0

3回答

使用或不使用Hive处理Amazon EMR中的日志

hadoop、hive、hadoop-streaming、emr

我的EMR集群中有很多日志文件位于路径‘hdfs://logs’。每个日志条目都是多行的，但是有一个开始和结束标记在两个条目之间划分。现在, 并非日志文件中的所有条目都有用。需要转换有用的条目，并将输出存储在输出文件中，以便以后能够高效地查询(使用Hive)输出日志。我有一个python脚本，它可以简单地接受一个日志<em

浏览 5提问于2012-12-21得票数 0

回答已采纳

1回答

hadoop dfs有问题(没有文件)

linux、hadoop

当我运行start-dfs.sh时，server3的路由是/home/xxx/hadoop-3.3.3/bin/hdfs(不是这样的文件)。实际上应该是/home/student/student8/hadoop-3.3.3 

浏览 6提问于2022-10-17得票数 0

1回答

我有一个csv文件，其中包含需要将s3文件移动到新位置的位置

bash、csv、amazon-s3、aws-lambda

我有兴趣将我的数据加载到AWS ATHENA DB中雅典娜希望按表而不是按source_video加载为此，我必须根据表名而不是source_video将这些文件移动到文件夹中。我精通python和bash，我知道如何使用aws cli。我想知道是否有比运行4Million+ mv命令并在几台机器上的不同进程中并行执行它

浏览 1提问于2017-07-12得票数 0

1回答

hadoop(sqoop)加载oracle的速度会比SQL加载程序快吗？

oracle、hadoop、apache-spark、data-warehouse、sqoop

我们目前使用bash脚本和带有多个线程的SQL加载器组合将CDR加载到oracle仓库。我们希望将这一过程卸载给hadoop，因为我们预计，由于用户群的增加，数据的增加将很快使当前的系统达到最大值。进一步的信息:我们通常会通过ftp获取管道分隔文本文件的contunoius流到文件夹中，在每个记录中再添加两个字段，加载到oracle中的<

浏览 1提问于2015-03-06得票数 0

2回答

在Ubuntu中运行Hadoop* Jar*

java、eclipse、ubuntu、hadoop、jar

我正在尝试在Hadoop中运行jar文件。我已经使用Eclipse导出函数转换了jar文件。现在的问题是，当我运行jar文件时，它显示classnotfoundexception。我在子文件夹中的主类，例如WordCount->count->src->countFunction->wordCount.谁能告诉我在这种情况下如何正确地给出路径。我使用这个命令。/bin

浏览 7提问于2014-07-15得票数 0

3回答

将数据加载到配置单元的HDFS路径

hadoop、hive

我将hadoop作为单节点发行版运行。在帖子之后，我使用以下命令将一个文件移动到HDFS hadoop fs -put <local path> </usr/tmp/fileNAme.txt> .现在我正在尝试使用下面的命令将HDFS文件中的数据加载到Hive表中。找不到我应该在下面的命令中提供的相对于本地文件系统的HDFS路径。我在jav

浏览 1提问于2015-11-27得票数 1

2回答

从ftp并行复制文件到hdfs，distcp失败

ftp、hdfs

比方说，我有一个ftp服务器，用来存储一些数据。我认为hadoop distcp就是我所需要的。(DistCp.java:641)at org.apache.hadoop.tools.DistCp.run(ToolRunner.java:79) at

浏览 5提问于2013-07-08得票数 0

26回答

Hadoop命令

hadoop、hdfs

我在这个位置安装了Hadoop Found 3 items-rw-

浏览 18提问于2014-03-26得票数 6

1回答

在spark中并行加载多个文件的最有效方法？

apache-spark、pyspark、google-cloud-dataproc

给出大约30k个文件(250个部分文件，每个部分长达10年，每个部分大约200MB)，我想将它们加载到RDD/DataFrame中，并根据一些任意的过滤器过滤掉项目。为了高效地列出文件(我使用的是google dataproc/云存储，所以执行通配符glob的驱动程序非常串行且非常慢)，我预先计算了文件名的RDD，然后将它们加载到RDD中(我使

浏览 1提问于2016-06-30得票数 3

点击加载更多