在Mapper hadoop中获取文件名

，可以通过使用Hadoop提供的InputSplit对象来获取。InputSplit对象代表了输入数据的一个切片，它包含了文件的元数据信息，包括文件名、文件路径等。

在Mapper类的map方法中，可以通过调用Context对象的getCurrentKey方法来获取当前输入记录的键值，而通过调用Context对象的getInputSplit方法可以获取当前输入记录所属的InputSplit对象。然后，可以通过InputSplit对象的getLocations方法获取文件的路径信息，再通过Java的文件操作API获取文件名。

以下是一个示例代码：

import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.InputSplit;

public class MyMapper extends Mapper<Object, Text, Text, IntWritable> {
  
  @Override
  public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
    // 获取当前输入记录的键值
    String currentKey = key.toString();
    
    // 获取当前输入记录所属的InputSplit对象
    InputSplit inputSplit = context.getInputSplit();
    
    // 获取文件的路径信息
    String[] locations = inputSplit.getLocations();
    String filePath = locations[0];
    
    // 获取文件名
    String fileName = new File(filePath).getName();
    
    // 其他处理逻辑
    // ...
    
    context.write(new Text(fileName), new IntWritable(1));
  }
}

在上述示例中，我们通过调用InputSplit对象的getLocations方法获取文件的路径信息，然后使用Java的文件操作API获取文件名。最后，可以将文件名作为键值，将相应的计数作为值，写入到Context对象中。

对于Hadoop相关的产品和产品介绍链接地址，可以参考腾讯云的文档和官方网站。

如何在Hadoop中读取文件名和单词计数？

、、

我试图在python的dumbo包的帮助下，从hadoop的序列文件中获取文件名。但它为我提供了某种标识。如何将此映射到文件名？下面是我在hadoop系统上获取文件名的步骤：指挥： hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-w

浏览 7提问于2015-01-05得票数 0

1回答

在Mapper hadoop中获取文件名

、、、、

sys filename = os.environ["map_input_file"]except KeyError: filename = os.environ["map_input_file"] 它总是引发一个KeyError，并且不能导入文件名任何关于如何

浏览 22提问于2019-02-15得票数 0

1回答

将附加文件附加到hadoop中的python streamming作业

、、、、

我有一个mapper.py reducer.py和helper.py，还有一个包。基本上，我的mapper.py将调用helper.py，而helper.py将为包中的模块(一堆python文件)导入。当我运行hadoop作业时，我的命令应该是什么？这是我正在使用的输入：hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.2

浏览 1提问于2015-05-04得票数 0

1回答

Hadoop:在映射器中只获取一次输入文件名

、

我是hadoop的新手，目前正在从事hadoop的工作。我有个小问题。我有大约10个文件的输入文件夹，我需要传递到我的地图减少程序。我想要映射器中的文件名，因为我的fileName包含创建该文件的时间。我看到人们在mapper中使用FileSplit获取文件名。如果假设我的输入文件包含数百万行，那么每次调用mapper代码时，它都会得到文件名，然后从文件中提取时间，这对于同一个文件来说显然是一个重复的耗时问题。一旦

浏览 10提问于2014-11-14得票数 2

回答已采纳

1回答

为python运行hadoop流(Version2.6.5)时的类

、、、

每当我试图运行这段代码来执行python中的map-还原代码时，我就会得到一个classnotfoundexception.。我目前正在使用hadoop-2.6.5。输入：-input /wordcoun

浏览 0提问于2017-04-29得票数 0

1回答

使用python的Hadoop流

、、、

我正在尝试执行地图减少代码，如下所示： hadoop jar /usr/lib/Hadoop/Hadoop-streaming-0.20.2-cdh3u2.jar –file mapper.py –mappermapper.py –file reducer.py – reducer reducer.py –input /user/training/samplypy.txt –ouput /user/

浏览 1提问于2015-08-02得票数 2

5回答

使用Hadoop管道在Hadoop映射程序中获取文件名

、

如何获得输入文件名称，该文件正在hadoop mapper in Hadoop Pipes?中执行 FileSplit fileSplit = (FileSplit)context.getInputSplit()；and字符串文件名=fileSplit.getPath().getName()；System.out.println(“文件名”+文件名<

浏览 9提问于2012-12-24得票数 2

1回答

如何在Hadoop集群上运行Hadoop* Streaming？*

、、、

目前我有一个有3个节点的Hadoop集群(Ubuntu) 我想运行带有Hadoop流的python /R脚本，但是我不确定仅仅执行HS是否真的能使所有节点工作如果可能，请告诉我在群集上运行流的方向

浏览 21提问于2020-04-25得票数 0

1回答

检索Mapper中当前行的文件名

、、、

简单的逻辑是遍历文本中的每一行，并将其与我们的关键字匹配。如果它返回真文件名，则打印文件名。 at org.myorg.DistributedGrep$GrepMapper.map(DistributedGrep.java:1) at

浏览 2提问于2016-06-14得票数 3

回答已采纳

3回答

如何从mapper获取Hadoop输入文件名？

、、

Hadoop streaming通过环境变量使文件名可供每个map任务使用。mapper.rb #!

浏览 7提问于2013-09-14得票数 1

3回答

流jar无法找到HDFS中的Mapper文件

、、、

我目前正在尝试运行Hadoop的本地版本，但我有点卡住了。我在安装过程中使用了以下教程： :libexec me$ hadoop jar/share/hadoop/tools/lib/hadoop-streaming-2.4.0.jar -Dmapred.reduce.tasks=1 -input text/* -output

浏览 3提问于2014-11-20得票数 1

回答已采纳

3回答

Mapper和Reducer是Hadoop版本2中的接口吗？

、、、

我知道Mapper和Reducer是Hadoop 2中的接口。但是在编写代码时，我仍然看到使用扩展映射程序或扩展还原器而不是实现.Is的例子，这是有原因的，还是因为向后兼容性而在旧版本中实现的？

浏览 2提问于2016-05-04得票数 0

回答已采纳

4回答

如何向python Hadoop流式作业传递参数？

、、

对于python Hadoop流作业，我如何将参数传递给，例如，reducer脚本，以使其根据传入的参数表现不同？我知道流式作业的调用格式为： hadoop jar hadoop-streaming.jar -input -output -mapper mapper.py -reducer reducer.py .

浏览 1提问于2012-03-01得票数 10

2回答

给出错误的问题

、

(ReflectionUtils.java:113) at org.apache.hadoop.hive.ql.exec.FunctionRegistry.registerGenericUDTF(FunctionRegistry.java:539) at org.apache.hadoop.hive.ql.exec.Func

浏览 4提问于2013-01-17得票数 1

1回答

Hadoop Streaming、C#和带有外部库的Azure

、、

我在Azure的Linux集群上使用Hadoop Streaming在C#中运行mapreduce作业。但是，我需要使用MathNet.Numerics库。我使用NuGet包管理器获取dll，然后将dll作为参考文件包含在lib文件夹中，并确保构建操作设置为: Embedded Resource。hadoop jar ./Mapper.exe -mapper Mapper.ex

浏览 1提问于2016-02-26得票数 1

2回答

使用hadoop* streaming时如何在HDFS中导入nltk语料库*

、、、

I use this http://eigenjoy.com/2009/11/18/how-to-use-cascading-with-hadoop-streaming/zip -r nltkandyaml.zip nltk-2.0.1.rc1 PyYAML/mapreduce

浏览 0提问于2012-05-23得票数 1

1回答

Hadoop HDFS压缩就地

、、

因此，在/var/ log /…中有一堆日志文件在hdfs上，可以使用snappy解压缩或压缩。$HAD/bin/hadoop jar $HAD/hadoop-streaming.jar \-input /var/l

浏览 7提问于2017-12-15得票数 0

回答已采纳

2回答

如何在Hadoop上的java/终端中指定文件的路径？

、、、、

我正在Hadoop2上运行一个任务：hipi.jar: jar文件名"/processWOH) 我认为(我不确定)在路径中添加额外的"/localhost:9000“的问题，但是我不知道它是如何添加的(由hadoop，java代码，.)。注意:这个j

浏览 4提问于2017-03-24得票数 0

1回答

从python hadoop映射器输出空白

、、

print line我这样运行作业；它运行时没有错误，但输出文件为空： bin/hadoopjar contrib/streaming/hadoop-streaming.jar -file ~/mapper1.py -mapper mapper1.py -input hdfs:///rawdata我现在怀疑

浏览 0提问于2014-04-15得票数 0

2回答

MapReduce不会产生输出

、、、

;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Reducer;

浏览 2提问于2017-05-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Mapper hadoop中获取文件名

相关·内容

如何在Hadoop中读取文件名和单词计数？

在Mapper hadoop中获取文件名

将附加文件附加到hadoop中的python streamming作业

Hadoop:在映射器中只获取一次输入文件名

为python运行hadoop流(Version2.6.5)时的类

使用python的Hadoop流

使用Hadoop管道在Hadoop映射程序中获取文件名

如何在Hadoop集群上运行Hadoop* Streaming？*

检索Mapper中当前行的文件名

如何从mapper获取Hadoop输入文件名？

流jar无法找到HDFS中的Mapper文件

Mapper和Reducer是Hadoop版本2中的接口吗？

如何向python Hadoop流式作业传递参数？

给出错误的问题

Hadoop Streaming、C#和带有外部库的Azure

使用hadoop* streaming时如何在HDFS中导入nltk语料库*

Hadoop HDFS压缩就地

如何在Hadoop上的java/终端中指定文件的路径？

从python hadoop映射器输出空白

MapReduce不会产生输出

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐