hdfs大数据_云HDFS大促_云 HDFS新春大促 - 腾讯云开发者社区

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通过S3中的一个主机(为简洁而忽略复制)。因此，这是否意味着与大数据世界中的HDFS相比，S3的性能要差得多。

浏览 2提问于2019-01-15得票数 12

回答已采纳

3回答

HadoopFS (HDFS)作为分布式文件存储

、

我正在考虑使用HDFS作为我们的客户端视频托管服务的水平缩放文件存储系统。我主要担心HDFS不是为这个需求而开发的，这更多的是“一个开源系统，目前正在需要处理大量数据的情况下使用”。我们不想处理数据，只是存储它们，在HDFS的基础上创建一些类似于亚马逊内部小型S3模拟的东西。也许重要的时刻是，存储的文件大小将相当大，从100Mb到10Gb。有没有人使用HDFS来达到这样的目的？

浏览 0提问于2011-05-26得票数 5

2回答

是否可以在spark.read.csv中包含目录信息？

、、

设想情况：我编写CSV数据的方式如下 df.write.partitionBy("foo", "bar").csv("hdfs:///quux/bletch") hdfs://quux/bletch/foo=baz/bar=moo目录中的CSV文件都缺少foo和bar列。我怎么才能把它读回来才能得到这些专栏呢？请不要告诉我，我必须逐个读取每个目录，手动添加数据，做一个大的，胖的union.

浏览 0提问于2018-08-23得票数 0

回答已采纳

1回答

当使用sc.textFile(" hdfs ://.....")时，spark和hdfs之间会建立多少连接？被调用

、

当使用sc.textFile(" hdfs ://.....")时，spark和hdfs之间会建立多少连接？是调用的。hdfs上的文件非常大(100G)。

浏览 0提问于2018-09-13得票数 0

1回答

反映hdfs中大表的变化

、

我在OLTP系统中有一个订单表。每个订单记录都有一个OrderStatus字段。当最终用户创建订单时，OrderStatus字段设置为"Open“。当有人取消订单时，OrderStatus字段设置为“已取消”。当订单处理完成(转换为发票)时，OrderStatus字段设置为"Close“。在Oltp系统的表中有超过1亿条记录。我想在hdfs层上设计和填充数据仓库和数据集市。为了设计数据集市，我需要将整个order表导入到hdfs，然后需要不断地反映表上的更改。首先，我可以在初始加载过程中使用sqoop将整个表导入到hdfs中。我可

浏览 0提问于2017-09-07得票数 0

1回答

HBase表的大小比hadoop中的文件大得多。

、、

最近，我使用hadoop批量加载将数据放入hbase中，首先，我调用hdfs将数据写入hadoop中的文件中，总共有7,000,000行数据，大小为503 to。其次，我使用org.apache.hadoop.hbase.mapreduce.ImportTsv和org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles将数据放入hbase中。我所做的最重要的事情是使用大容量工具将数据放入hbase中，在完成大容量加载之后，我发现hbase表是1.96GB。hdfs复制为1，我不知道为什么。

浏览 5提问于2012-12-13得票数 3

1回答

BigQuery数据仓库设计？

、、、

在Datawarehouse的一个典型的HDFS环境中，我看到了一些不同的阶段，在这些阶段中，数据被分阶段处理和转换，如下所示。我正试图在Google云平台上设计一个系统，在那里我可以执行所有这些转换。请帮帮忙。 HDFS:：着陆区->级1区->级2区着陆区--对于具有原始数据级1区域的数据--来自着陆区的原始数据被转换，然后更改为不同的数据格式和/或非规范化并存储在第1阶段2区域中--第1阶段的数据在交易表上更新，例如HBASE。如果它只是一个时间段数据，那么仍然是基于HDFS的HIVE表，那么，报告会发生在第2阶段(如果转换之间也可能有多个区域) 我在Google中实现的思想

浏览 0提问于2018-08-14得票数 0

回答已采纳

1回答

Hadoop顺序数据访问

、

根据Hadoop最终指南： HDFS是一个文件系统，用于存储具有流式或顺序数据访问模式的非常大的文件。什么是流访问或顺序数据访问？它将如何减少磁盘的查找时间？

浏览 0提问于2014-04-08得票数 3

回答已采纳

1回答

hbase真的是线性的吗？

、、、、

我开始学习hbase，我不明白它是如何线性扩展的。问题是，在安装hbase之前，您必须有一个hdfs集群。HDFS集群有一个主节点，只能是整个集群中的一个节点，因此它是一个瓶颈。当然，我们可以多运行一个主节点(只可能多运行一个主节点)，但它将处于待机状态。据我所知，hbase使用HDFS集群来存储数据。因此，从逻辑上讲，运行多个Hmaster是没有意义的，因为所有请求都将转到hdfs活动主程序，如果我们有太多的请求，其性能可能会受到影响。另外，我也不明白，我们是否需要将hbase安装在hdfs的相同节点上，或者单独安装。如果我们单独运行hbase和HDFS，有什么好处。就我而言，在具有hd

浏览 1提问于2016-08-02得票数 2

回答已采纳

1回答

如何有效地读取100 K图像？

、、、

目前，我正在编程一些关于图像分类与星火。我需要将所有图像作为RDD读入内存，我的方法如下： val images = spark.wholeTextFiles("hdfs://imag-dir/") imag-dir是hdfs上的目标映像存储目录。使用这种方法，所有的图像将被加载到内存中，每个图像将被组织为“图像名称，图像内容”对。然而，我发现这个过程很费时，有什么更好的方法来加载大的图像数据集的火花吗？

浏览 2提问于2015-01-15得票数 2

回答已采纳

2回答

用于将文件从本地文件系统迁移到HDFS的Hadoop工具

、、

我正在研究如何将数据从共享网络驱动器导入HDFS的POC。数据将位于共享驱动器上的不同文件夹中，每个文件夹对应于HDFS上的不同目录。我看了一些流行的工具，但是大多数工具都是用来移动小数据的，而不是整个文件。这些是我找到的工具，还有其他的吗？ Apache：--如果只有少数生产服务器生成数据，并且不需要实时写入数据，那么通过Web或NFS将数据移动到HDFS可能也是有意义的，特别是如果写入的数据量相对较少--每隔几个小时几个GB的文件不会对HDFS造成损害。在这种情况下，规划、配置和部署Flume可能不值得。水槽实际上是用来实时推送事件的，数据流是连续的，其体积相当大。在线狩猎水槽书和水槽食谱

浏览 5提问于2014-08-12得票数 5

回答已采纳

1回答

使用spark将大型csv拆分为多个csv

、、、

我想用spark在hdfs中写一个大的数据帧(150Go)。所以我就这么做了： df.coalesce(10).write.option("header",true).option("delimiter",";").csv("hdfsPath") 有什么办法解决这个问题吗？

浏览 0提问于2020-12-08得票数 0

1回答

在本文的上下文中，“数据的本地缓存”意味着什么？

、

从下面的文本- ()段落中，它提到顺序可读的大文件不适合本地缓存。但我不明白这里的地方意味着什么..。我认为有两个假设:一个是来自HDFS的客户端缓存数据，另一个是datanode缓存其本地文件系统中的hdfs数据，或者是客户机可以快速访问的内存。有谁能解释得更多吗？非常感谢。但是，虽然HDFS具有很强的可伸缩性，但它的高性能设计也限制了它只适用于特定类别的应用程序；它没有NFS那样通用。有许多额外的决定和权衡是与HDFS作出的。特别是：使用HDFS的应用程序被假定执行长时间的连续流读取文件。HDFS被优化以提供流读取性能；这是以牺牲对文件中任意位置的随机查找时间为代价的。数据将写入

浏览 3提问于2012-04-11得票数 3

回答已采纳

1回答

如何将pyspark dataframe写入HDFS，然后如何将其读回dataframe？

、、、、

我有一个非常大的pyspark数据帧。所以我想对它的子集执行预处理，然后将它们存储到hdfs中。稍后，我想把它们全部读完并合并在一起。谢谢。

浏览 18提问于2017-06-01得票数 14

回答已采纳

1回答

使用Hive时HDFS中的文件分发和分区

、、、、

一方面，在HDFS文档中，他们说： HDFS被设计为支持非常大的文件。与HDFS兼容的应用程序是处理大型数据集的应用程序。这些应用程序只写他们的数据一次，但他们读它一次或多次，并要求这些读取满足流速度。HDFS支持在文件上写一次读-许多语义.HDFS使用的典型块大小为64 MB。因此，HDFS文件被分割成64 MB块，如果可能，每个块将驻留在不同的DataNode上。这意味着每个文件都将在节点之间被分割。另一方面，当我使用Hive或Spark时，我管理分区的方式是每个分区都有一个文件夹，并且内部的所有文件都属于这个分区。例如： /Sales /country=Spain

浏览 0提问于2019-08-28得票数 1

回答已采纳

1回答

将工作目录设置为hdfs

、、、

我需要从R中非常大的数据集中创建一些数据帧，有办法改变我的工作目录，以便将我创建的R对象保存到hdfs中吗？我在/home下没有足够的空间来保存这些大数据帧，但是我需要使用一些需要数据帧作为输入的数据帧函数。

浏览 8提问于2015-05-18得票数 1

回答已采纳

1回答

hadoop -从一个非常大的序列文件中获取数据的最佳方式是什么？

、、

我在hdfs中有一个非常大的hadoop序列文件。从其中获取数据的最佳方式是什么？即，选择记录等。蜂巢能做到这一点吗？如何从序列文件在配置单元中创建表？谢谢

浏览 0提问于2012-07-05得票数 1

回答已采纳

1回答

Hbase表导出到配置单元

、、

Hello :)我正在准备将1HBase表的整个数据移动到hive。表的大小非常大(500TB) 作为搜索的结果，有hbase导出，但仅支持hbase和hbase之间的数据移动( hdfs中丢弃的文件不是纯文本，因此hive无法立即读取它们)此外，由于hbase是远程群集和各种安全策略，无法使用hbase的hbase处理程序。如果能像Hive to Hive那样支持INSERT INTO语法就好了，但我正在寻找另一种方法。有没有用逗号分隔Hbase表的每一列并将其放到hdfs中的好方法？

浏览 14提问于2020-08-27得票数 1

1回答

在包含联接的表上执行增量Sqoop？

、、、、

我有一些非常大的表，我试图将sqoop从源系统数据仓库()转换为HDFS，但带宽有限。我只想拉出我需要的列，并尽量减少使表站起来的运行时间。 sqoop当前提取的内容如下： SELECT ColumnA, ColumnB, .... ColumnN FROM TABLE_A LEFT JOIN TABLE_B ON ... LEFT JOIN TABLE_N .... 如果数据以星型模式格式存储，并且维度可以独立于事实进行更新，那么是否可以执行增量的sqoop？或者，对于我需要的列来说，是sqoop整个表的唯一解决方案，并在H

浏览 1提问于2017-11-13得票数 1

回答已采纳

1回答

从oracle导入sqoop的行为

我想使用Sqoop将大表从oracle数据库导入到HDFS。由于表很大，而且有主键，所以sqoop可以并行运行多个映射器。我有一些问题要问 1)由于oracle数据库中的错误记录，一个映射器出现异常，其他映射器运行正常。那么所有的作业都将失败，或者除了一个映射器数据之外，所有其他映射器都将在HDFS中写入数据？ 2)如果我们使用hive --m选项，sqoop是否足够智能来运行并行映射器。如果我们给--m 4，那么sqoop可以根据表的大小增加映射器，还是只使用4运行？有没有人遇到过这种情况？？

浏览 0提问于2018-02-28得票数 0

1回答

存储和迭代排序的文件hdfs/spark

、、、

任务：我在hdfs上有相当大的输入文件(假设每个文件50 on )。我需要对它们进行排序，存储在某个地方(驱动程序/hdfs/其他什么？)然后迭代它们，直到满足特定条件。问题：我如何才能最有效地实现它？我应该在哪里保存排序的文件？如果在hdfs中，我如何将它们流式传输到spark，它们是否会按块加载？

浏览 0提问于2017-01-28得票数 0

2回答

结合使用Hadoop MapReduce和数据库查询

、、、

在处理一些大的MySQL文件之前，我正在运行的某个作业需要从DB ( HDFS，尽管这并不重要)中收集一些元数据。此元数据将被添加到文件中的数据中，并传递到后面的map/combine/reduce阶段。我想知道把这个查询放在哪里才是“正确”的。我需要元数据在映射器开始时可用，但将它放在那里似乎是多余的，因为每个映射器都将执行相同的查询。如何(如果有的话)执行此查询一次，并在所有映射器之间共享其结果？有没有一种通用的方法在执行任务的所有节点之间共享数据(除了将数据写入HDFS之外)？谢谢。

浏览 2提问于2012-03-26得票数 1

回答已采纳

5回答

为什么没有'hadoop -head‘shell命令？

、

在HDFS上快速检查文件的一种方法是使用 ~$ hadoop fs -tail /path/to/file 这将显示文件中最后一千字节的数据，这是非常有用的。但是，相反的命令head似乎并不是shell命令集合的一部分。我觉得这很令人惊讶。我的假设是，由于HDFS是为对非常大的文件进行快速流读取而构建的，因此存在一些影响head的面向访问的问题。这让我对做些什么来访问头部感到犹豫。有人知道答案吗？

浏览 9提问于2013-11-04得票数 68

回答已采纳

1回答

在hdfs文件上运行awk脚本并将结果文件保存在hdfs中

、、、

我在hdfs中有一个文件，我需要在该文件上运行awk脚本。然后，我会将结果保存到另一个hdfs位置。一种方法是在本地下载hdfs文件，然后运行awk操作。另一种方法是通过管道将hdfs文件上的cat结果传递给awk。有没有办法将这一责任委托给map-reduce框架，因为这些文件非常大，有数百万条记录。我找到了这篇关于使用Hadoop流的文章，但是我找不到流jar。https://dzone.com/articles/using-awk-and-friends-hadoop

浏览 30提问于2020-01-27得票数 1

2回答

Hadoop put命令什么也不做！

、、

我正在运行Cloudera的Hadoop发行版，一切正常，perfectly.The hdfs包含大量的.seq文件。我需要将所有.seq文件的内容合并到一个大的.seq file.However中，getmerge命令对我没有任何作用。然后，我使用cat并通过管道将一些.seq文件的数据传输到本地file.When中。我想将此文件“放入”hdfs中，它会显示nothing.No错误消息，但没有创建文件。我能够“触摸”文件在硬盘文件系统和用户权限不是一个问题，put命令简单的不work.What我做错了吗？

浏览 1提问于2011-03-14得票数 0

1回答

在hadoop中查找文件的第一个块

、

我在hdfs中存储一个500 Mb或更大的视频文件。因为它比块大小大，所以它将被分发。我必须收集或工作首先对第一个数据块(这里的视频文件)，因为它将只包含序列头。我如何做到这一点，或者如何在hadoop中找到文件的第一个数据块？

浏览 2提问于2014-06-18得票数 1

回答已采纳

2回答

在hadoop mapreduce应用程序中访问来自其他文件系统的文件以及hdfs文件

、

我知道我们可以从普通的java应用程序中调用map-reduce作业。现在，在我的例子中，map-reduce作业必须处理hdfs上的文件以及其他文件系统上的文件。在hadoop中，我们是否可以访问其他文件系统中的文件，同时使用hdfs上的文件。这有可能吗？所以基本上我的意图是我有一个大的文件，我想把它放在HDFS中进行并行计算，然后将这个文件的块与其他一些文件(我不想放在HDFS中，因为它们需要一次作为全长文件访问)进行比较。

浏览 0提问于2012-11-02得票数 4

回答已采纳

1回答

HDFS上非结构化数据行的数据存储格式

、、、、

我们正在消耗非常大的数据，这些数据需要与接收到的数据一样快地写入，而且我们使用的是HDFS，因此我们更喜欢使用HDFS。数据几乎是非结构化的，我们很少对它们进行基本的查询。数据是扁平的，有一些字段，每一行代表另一个数据。 key1=str key2=30.3 key3=longtexthere 另一个数据行： key1=3 key5=abc SequenceFile似乎是最自然的一种，但是我不知道如何在一个SequenceFile中存储多行。目前，在我们的临时解决方案中，我们有多个写入器来写入多个文本文件。因此，当需要查询时，我们并行读取它们。然而，当前的文本文件包含数千行，我不认为为每一行

浏览 5提问于2016-10-22得票数 1

1回答

文件格式存储的最佳实践(Hadoop)

、、、

我想得到关于数据格式的建议，特别是在HDFS中存储数据的最佳解决方案是什么。我收到了很多JSON和XML格式的消息。为了进行有效的处理，我需要将这些文件转换成Hadoop的更好的格式，并将它们存储在HDFS中。这些文件的架构不会随时间而改变，这些文件可以是大的，也可以是小的(<64 or )。我需要压缩这些文件。然后，我将通过星火对数据进行处理，以确定是否存在错误，然后生成报告。因此，经过一些研究后，我认为我的用例的最佳格式是Avro (即使我不需要进行模式演化)，因为它提供了压缩和可拆分性。但是，我不确定这个解决方案。 (谢谢你的帮助:)

浏览 2提问于2015-12-30得票数 1

回答已采纳

2回答

用DataFrame文件以.csv格式创建Pandas .csv

、、、、

我试图通过从hadoop集群中获取.csv数据并将其放入Pandas DataFrame来创建火花工作流。我能够从HDFS中提取数据并将其放入RDD中，但无法将其处理到Pandas Dataframe中。以下是我的代码： import pandas as pd import numpy as nm A=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv") # this creates the RDD B=pd.DataFrame(A) # this gives me the following error:pandas

浏览 2提问于2016-09-21得票数 0

1回答

hadoop如何存储数据并使用MapReduce？

、、、

当我试图理解hadoop体系结构时，我想找出一些问题。当有一个大的数据输入时，HDFS会将它分成许多块(每盘64 to或128 to)，然后复制很多时间将它们存储在内存块中，对吗？但是，我仍然不知道MapReduce在哪里工作。它是用来划分和合并数据来存储的吗？还是用它来返回一些有用的输出？

浏览 6提问于2015-04-26得票数 1

回答已采纳

1回答

如何在OS上运行Hadoop？

、、、

我有一台macbook Pro。我认为我成功地安装了hadoop流，但是我不知道它是在哪里安装的，hdfs在哪里。我已经安装了单节点版本。我正在使用python编写代码。我将mapper.py和reducer.py放在桌面上，我也在桌面上放置了一个大文本文件，我将在桌面上运行这些程序。我遵循本教程的问题是，我不知道在教程中键入“将本地示例数据复制到HDFS”部分的路径。我成功地单独运行了python文件，并使用了与教程相同的代码。我用brew安装Hadoop。谢谢

浏览 0提问于2014-03-13得票数 3

回答已采纳

1回答

如何使用Hadoop处理视频数据

、

现在我有了一些大视频数据。我想用Map/Reduce解码hadoop中的视频数据。我想使用的解码类库是ffmpeg。但函数av_open_input_file只能读取本地文件，不能读取HDFS上的文件。因此，如果我想解码视频数据，我应该初始化struct AVFormatContext。现在我拿不到这个struct了。如何读取视频文件头，初始化AVFormatContext？并逐个字节地读取视频数据并最终解码？

浏览 2提问于2012-11-21得票数 0

2回答

是否存在将本地文件夹用作Hadoop HDFS文件夹的可行且简单的选项

、、、

我在一个速度极快的SAN磁盘上有一大块文件，我喜欢在它们上执行配置单元查询。一个明显的选择是使用如下命令将所有文件复制到HDFS中： hadoop dfs -copyFromLocal /path/to/file/on/filesystem /path/to/input/on/hdfs 然而，我不想创建我的文件的第二个副本，只是为了在其中进行配置单元查询。有没有办法将HDFS文件夹指向本地文件夹，以便Hadoop将其视为实际的HDFS文件夹？这些文件不断地添加到SAN磁盘中，因此Hadoop需要在添加新文件时查看它们。这类似于Azure的HDInsight方法，即将文件复制到blob存储

浏览 1提问于2017-05-24得票数 1

2回答

Hive，HDFS数据到本地系统并返回

、、、

我是Hadoop政府的新手:) 我有一个由8个节点组成的ApacheHadoop2.4.1集群，使用了16 nodes (无法在任何xml文件中找到复制因子)，Hive0.13具有MySQL转移。目标：将集群上的数据备份到NFS驱动器，卸载集群，安装其他发行版(Cloudera，Hortonworks)，并将数据从NFS驱动器重新加载到这个新集群。有两个956 of的Hive表(大约90亿行)和32GB的表格(几百万行)和很少的其他较小的表。 Concerns/Queries：如何在NFS驱动器上备份整个集群？目前，我有一台独立的机器(不是集群的一部分)，它安装了NFS驱动器。

浏览 4提问于2015-02-05得票数 1

1回答

了解有关Hadoop/HDFS数据加载的更多信息

、

我正在研究Hadoop和MapReduce (我是初学者！)还有一个关于HDFS的简单问题。我对HDFS和MapReduce如何协同工作感到有点困惑。假设我有来自系统A的日志、Tweets和来自系统B的一堆文档。当这些文件加载到Hadoop/HDFS中时，是全部放入一个大的HDFS存储桶中，还是会有三个区域(为了更好的说法)？如果是这样，正确的术语是什么？这些问题源于对如何执行MapReduce作业的理解。例如，如果我只想专注于日志，是否可以做到这一点，或者是否所有作业都存储在集群上？感谢您的指导！TM

浏览 1提问于2013-02-09得票数 0

回答已采纳

1回答

如何找到hdfs文件时间戳到毫秒级

有没有办法使HDFS中文件的时间戳达到毫秒级。例如：在linux中，我们可以获得如下所示的完整时间戳 $ ls --全职共计4 rw-r-r-r.1 bigdatauser hadoop 0 2017-09-15 01:09:25.068425282 -0400 newfile1.txt -rwxrwxrwx。1大数据用户hadoop 106 2017-09-15 01:08:16.791844270 -0400 test.sh

浏览 1提问于2017-09-28得票数 0

1回答

如何计算带有特定分区过滤器的hive表的大小？

、

背景。我可以计算我的hive分区表的大小，如下所示。<即查找所有分区的大小，然后求和所需partitions>的大小 hdfs dfs -du 'hdfs://localhost:9090/user/temp/warehouse/test.db/tbl1' 100 hdfs://localhost:9090/user/temp/warehouse/test.db/tbl1/dt=2021-10-06 200 hdfs://localhost:9090/user/temp/warehouse/test.db/tbl1/dt=2021-10-07 300

浏览 18提问于2021-10-12得票数 0

回答已采纳

1回答

拼花分区和HDFS文件大小

、、

我的数据是相对较小的Avro记录形式，用Parquet文件编写(平均< 1mb)。到目前为止，我使用本地文件系统对Spark进行了一些测试。我使用目录层次结构对数据进行了分区。我想知道在Avro记录上“构建”分区并积累更大的文件是否更好.但是，我认为分区Parquet文件也会“映射”到HDFS分区文件。最好的办法是什么？编辑(根据评论澄清)： “在Avro记录上构建分区”：假设我的目录结构为P1=/P2=/file.avro，并且Avro记录包含字段F1和F2。我可以将所有这些保存在一个包含字段P1、P2、F1和F2的Avro文件中。不需要包含目录的分区结构，因为它都存在于

浏览 5提问于2016-08-22得票数 0

1回答

由过滤器生成的PySpark DataFrame -它存储在哪里？

、、、、

对于任何软件架构师来说，这可能是一个基本的问题，但我很难理解这个概念。假设我在hdfs上存储了一个大的Spark。我现在执行如下过滤操作： df_new = my_big_hdfs_df.where("my_column='testvalue'") print(type(df_new)) class‘>类pyspk.sql.dataframe.DataFrame’> df_new究竟存储在哪里？如果这是一条普通的蟒蛇，我会猜在记忆中的某个地方。但对于PySpark来说也是这样吗？还是只是某种参考？它是否保存在hdfs的某个磁盘上？

浏览 0提问于2018-03-19得票数 0

1回答

配置水槽以写入文件~100 to (接近120 to的hdfs文件大小)

、

我试图配置Flume，所以它至少关闭HDFS的块大小，在我的例子中是128 my。这是我的配置，它为每个文件编写了大约10 my： ############################### httpagent.sources = http-source httpagent.sinks = k1 httpagent.channels = ch3 # Define / Configure Source (multiport seems to support newer "stuff") ############################### httpagent.so

浏览 0提问于2014-07-24得票数 0

回答已采纳

1回答

如何合并SPARK data frame创建的文件夹中的所有零件文件并在scala中重命名为文件夹名

、、、、

嗨，我有我的火花数据框的输出，它创建文件夹结构和创建所以可能的零件文件。现在，我必须合并文件夹中的所有零件文件，并将其中一个文件重命名为文件夹路径名。这就是我做分区的方式 df.write.partitionBy("DataPartition","PartitionYear") .format("csv") .option("nullValue", "") .option("header", "true")/ .option("codec",

浏览 2提问于2017-10-18得票数 2

3回答

描述PySpark上的数据帧

、、、

我有一个相当大的Parquet文件，我使用以下命令加载该文件 file = spark.read.parquet('hdfs/directory/test.parquet') 现在我想获取一些统计数据(类似于pandas的describe()函数)。我试着做的是： file_pd = file.toPandas() file_pd.describe() 但很明显，这需要将所有数据加载到内存中，这将失败。有没有人能建议一种变通办法？

浏览 27提问于2019-05-01得票数 4

回答已采纳

1回答

mapreduce会使用大多数gzip文件所在的node吗？

、、

我有一个包含一些大gzip'd文件的HDFS集群。我确保这些gzip'd文件的所有块都在同一个DataNode上，方法是将它们从这个数据节点写入HDFS。 for i in {1..10}; do scp file$i.gz datanode1: ssh datanode$i hadoop fs -put file$i.gz /data/ done 现在，我想对所有这些文件运行mapreduce任务。我希望JobTracker将处理file1的作业放在datanode1上，所有的块都在那里。事实上，如果datanode死了，我就会失去局部性，但它会一直工作

浏览 0提问于2013-05-13得票数 2

回答已采纳

2回答

在引擎盖下面？猪在哪里保存中间结果/关系数据？

、、、、

LOAD函数/命令从HDFS或Local加载数据。例：- gurnt >employees = LOAD 'hdfs://localhost:9090/pig_dir/data.txt' USING PigStorage(',') as ( id:int, salary:int, ...etc) 下面可以执行类似于猪的命令。 grunt >wellpaid_employees = FILTER employees BY salary > '100000'; 于是我开始思考，猪把“雇员”的数据/关系存放在哪里。在需要进一步处

浏览 3提问于2016-11-15得票数 0

1回答

文件的缓存选项

、、、

我需要开发一个中间层应用程序来从HDFS存储库获取请求的文件。这很简单。但是，我在想一种方法，如何缓存这些请求的文件，以防止从HDFS一次又一次地查询该文件。对于这一点，我应该使用的最佳缓存选项是什么？请注意，这些文件的大小相当大。(接近GB)

浏览 3提问于2015-06-18得票数 0

1回答

Sqoop导出到Server与批量插入到Sql服务器

、、、、

我有一个关于Apache的唯一查询。我使用apache导入工具将数据导入到我的HDFS文件中。下一个，。我需要使用Hadoop (Sqoop)将数据放回另一个数据库(基本上是从一个数据库供应商到另一个数据库供应商)。要将数据放入Server，有两个选项。 1)使用Sqoop导出工具连接到我的RDBMS (SQL server)，并直接导出数据。 2)使用copyToLocal命令将HDFS数据文件(以CSV格式)复制到本地机器，然后对这些CSV文件执行BCP (或大容量插入查询)，将数据放入SQL server数据库。我想了解哪一种方法是完美的(或者更准确地说是正确的)，以及哪一种方法比

浏览 5提问于2014-06-14得票数 1

回答已采纳

2回答

为什么Hadoop -rmr命令非常快？

、

在HDFS的一个文件夹中，我有大约37 of的数据。 -dus我的文件夹名当我执行 -rmr我的文件夹名该命令在一瞬间执行。然而，在非分布式文件系统中，rm -rf对于类似大小的目录所需时间要长得多。为什么会有这么大的不同？我有一个2节点集群

浏览 5提问于2013-10-10得票数 1

回答已采纳

3回答

Elasticsearch大容量API :不能发布多条记录

、

我试图使用大容量api发布以下内容。我有ES 2.2.0 {"index":{"_index":"junktest","_type":"test"}} {"DocumentID":"555662","Tags":["B","C","D"],"Summary":"Summary Text","Status":"Review","Location"

浏览 2提问于2016-02-03得票数 1

回答已采纳

1回答

用Hadoop实现非规范化

、、、

我目前正在做一个使用Hadoop的项目。我们正处于项目的开始阶段。首先，我有一个关系数据库的50个表。我们提取它们，然后在HDFS上输出。现在，我们希望将引用数据去规范化为“大表”(只有3-4个文件)。我想我会用地图缩减来完成这项工作。我知道我怎么能用小桌子，但是用大桌子. 例如，我有一个包含数百万条目的表“票证”，还有一个由150亿个条目组成的表"Lign“的联接。我必须把他们去杀了。我的问题是，是否有任何方法或最佳做法？提前谢谢你，安格利克

浏览 1提问于2014-03-19得票数 0

回答已采纳