基于hadoop的日志分析_hadoop日志分析_hadoop 日志分析 - 腾讯云开发者社区

hadoop、client-server、thrift、scribe

我们可以只使用Hadoop进行日志记录，还是只使用Hadoop进行报告？因此，我可以尝试不同的东西，比如使用脚本进行日志记录和使用Hadoop进行报告。

浏览 3提问于2011-12-05得票数 0

1回答

存储和解析文本日志和报告的理想系统

database、text、hadoop、cassandra、hive

我有很多运行网络测试的文本报告和日志文件。我想将这些报告和日志存储在一个数据存储中，在那里我可以解析它们并根据解析的数据运行报告。我还希望这个系统是可扩展的，无论是它接受的报告和日志的类型，还是它可以用于的数据和查询/报告的数量。一位同事建议Hadoop可以满足这一需求，我所在组织的另一个团队表示，他们将Cassandra用于类似的项目(但有更多的数据，其中大部分是机器生成的)。我一直在阅读关于Hadoop and Cassandra的文章，我真的不确定使用这样的东西是不是有点过分，也不确定为每种日志/报告类型使用自定义解析器的关系数据库是否更合理。根据我对Hadoop的理解，无论如何我都

浏览 1提问于2013-03-06得票数 2

回答已采纳

1回答

我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

java、hadoop

我们能在流上使用hadoop生成输出吗？我有一个由日志和预约id组成的大文件，如果我使用传统的RDBMS，我可以得到预约id，但需要1或2个小时。日志文件大小为800 GB On意味着在管理员登录到系统时显示此约会id。我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

浏览 4提问于2013-10-25得票数 0

回答已采纳

1回答

寻找规模较小的类似Hadoop的解决方案

sql、database、hadoop、infinispan

我们有一个大约1000 GB (千兆字节)的数据库，我们正在考虑使用Hadoop来执行时间序列分析。问题是Hadoop需要一些时间才能进入，而且对于我们的数据库大小来说，Hadoop实际上是一个超大的解决方案。我的问题是，是否有人知道更小规模的Hadoop类似的解决方案。它还需要一些类似SQL的查询语言。我脑海中唯一浮现的就是JBoss Infinispan.但我想看看是否有其他已知的解决方案。

浏览 1提问于2013-11-20得票数 2

2回答

Hadoop -保存日志数据和开发GUI

java、python、hadoop

我正在为我的新项目做研究，以下是我的项目、研究和问题的详细情况：项目：保存日志(例如。格式是来自不同来源的TimeStamp、日志条目、位置、备注等。在这里，不同的源类似于，从世界各地不同的系统获取日志数据(只是一个Overview)(After，如1所指定的那样保存Hadoop中的日志条目)，生成按需保存在Hadoop中的日志的报告，如钻取、向上钻取等。注:每分钟大约。它们将是来自系统的50到60 MB的日志条目(我检查过了)。研究和问题：用于将日志条目从不同来源保存到Hadoop中，我们使用ApacheFlum.我们正在创建自己的MR程序和servlet. 除了水槽，他们还有其他

浏览 4提问于2011-12-26得票数 0

2回答

将大日志存储在MongoDB或Hadoop中进行分析与将Zip文件存储在文件服务器上相比有什么优势？

mongodb、logging、hadoop、analytics

目前，我们存储了大量的日志(30g/天的x3机器= av。100G)的文件服务器。日志已压缩。搜索日志实际工具是搜索相应的日志(根据timerange)，将它们复制到本地，解压缩，然后在xml中搜索信息和显示。我们正在研究制作一个类似spunk的工具来搜索日志的可能性(它是消息总线的输出:xml-发送到其他系统的消息)。依赖于一个类似mongo的数据库，而不是直接查询压缩的日志文件有什么好处？我们也可以在db中索引一些数据，让程序搜索目标zip文件……是什么带来了mongodb..。或者hadoop更多？

浏览 0提问于2013-01-25得票数 2

回答已采纳

2回答

hadoop如何帮助用户跟踪数据？

logging、hadoop、mapreduce

我想知道hadoop如何帮助用户数据跟踪。例如，我有一个电子商务应用程序，我希望记录客户执行的每一个活动，例如查看项、添加到购物车或购买项目。是否有使用hadoop记录事件的示例或最佳实践。我之所以想使用hadoop，是因为它的高可用性和可伸缩性，而且记录的数据也将从GBs增长到TBs。还是我错了？因为日志记录应该独立于hadoop，以后对日志数据的分析可以用hadoop完成吗？ Hadoop仅仅是关于MapReduce的吗？如果我可以使用hadoop记录或跟踪活动，那么什么是Map，哪些是还原函数？有人能解释一下这件事吗？

浏览 3提问于2014-04-11得票数 1

回答已采纳

2回答

跨多个节点的日志的Hadoop句柄

hadoop、hdfs

我有十个服务器，每个服务器每天都会产生大约3G日志文件。我已经完成了hadoop教程，并在每台机器上安装了每个hadoop (HDFS)。我想要使用map-reduce来分析这些日志。我的问题是如何在hadoop中启用MP的每日日志？目前，对于服务器A，我手动将日志文件复制到HDFS目录： >hadoop fs -put local_log_path /A/log_20170219.1 然后 >hadoop jar MR_path MP_driver_class /A/log_20170219.1 output_path. 有没有其他更有效的方法，让我不必跑到每台服务器

浏览 28提问于2017-02-20得票数 0

回答已采纳

1回答

如何使用nodejs创建日志收集服务？

node.js、logging

我需要建立一个日志收集系统。我发现常见的日志收集方案包括elk和Hadoop / hive。 1、作为前端开发人员，我是否可以花费一定的时间(例如，一周)来完成简单的构建而不需要服务端的基础？ 2、我可以使用nodejs、mongodb和其他技术栈来构建日志系统吗？

浏览 4提问于2022-09-05得票数 0

回答已采纳

1回答

Hadoop:只使用两台机器的缺点？

hadoop、analytics

我想对大量数据进行日志解析，并收集分析信息。然而，所有的数据都来自外部来源，我只有两台机器要存储--一台作为备份/复制。我在尝试使用Hadoop，Lucene..。来实现这一目标。但是，所有的培训文档都提到Hadoop对于分布式处理、多节点非常有用。我的设置不适合那个架构。在两台机器上使用Hadoop是否有任何开销？如果Hadoop不是一个好的选择，还有其他选择吗？我们看过Splunk，我们喜欢它，但它对我们来说太贵了。我们只想建立我们自己的。

浏览 2提问于2010-02-12得票数 2

回答已采纳

1回答

Hadoop :如何将web日志保存到本地文件？

hadoop、hadoop-yarn

我想知道是否可以将作业(容器)的hadoop (yarn) web日志保存到本地文件中？现在我可以在浏览器中检查所有的日志，但是当日志太长时，我的浏览器就会崩溃。而且我也不能访问数据记录。将web日志保存到可在本地分析的文件的最佳方法是什么？

浏览 43提问于2021-02-16得票数 0

1回答

无法在DSE6.7中创建SparkSession

scala、apache-spark、cassandra、datastax、spark-cassandra-connector

我已将DSE 5.1升级为DSE 6.7。我们使用支持火花的分析节点来执行火花作业。我使用以下方法创建sparkSession对象： SparkSession .builder() .appName("App Name") .config("spark.cassandra.connection.host", "host") .config("spark.cassandra.connection.port", "port") .config("spark.cassandra.auth.u

浏览 0提问于2018-12-21得票数 4

回答已采纳

1回答

每个作业覆盖log4j.properties

java、hadoop、logging、log4j

是否可以覆盖每个作业的log4j属性？我有一个多步程序(一个管道)来运行一些hadoop作业。但在此之前和之后还会执行其他一些步骤。如果我使用java命令(java -jar my_program.jar)运行我的程序，那么它运行正常，但我得到警告： Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 如果我使用hadoop命令(hadoop jar my_program.jar)运行我的程序，那么将加载默认的hadoop log4j.p

浏览 3提问于2015-03-15得票数 3

回答已采纳

4回答

如何收集Hadoop用户日志？

hadoop、logging、mapreduce

当M/R作业和日志错误发生时，我正在运行，而不是使作业失败。只有几个错误，但是作业是在有数百个节点的hadoop集群上运行的。如何在任务日志中搜索，而不必手动打开web (作业历史)中的每个任务日志？换句话说，如何在分散在集群中的M/R任务日志中自动搜索，这些日志存储在本地的每个节点中？

浏览 10提问于2015-01-29得票数 0

回答已采纳

1回答

Datastax节点基础

hadoop、cassandra、datastax-enterprise、datastax

我试图在datastax企业集群中设置hadoop节点和cassandra节点。在这一点上，有两件事我不清楚。第一，我需要多少hadoop节点？卡桑德拉节点的数目相同吗？这些数据还存在于卡桑德拉节点上吗？第二，教程提到我应该在hadoop节点上禁用nodes。我还可以在集群中的cassandra节点上使用nodes吗？谢谢。

浏览 3提问于2014-11-21得票数 0

回答已采纳

1回答

Java中的"chmod“hadoop路径

java、hadoop、hadoop2

我所做的基本上是使用java代码自动化一些shell命令(这些命令包括hadoop命令)，现在我正在bash上执行折叠命令： hadoop fs -mkdir path//tp//folder hadoop fs -chmod a+w path//to//folder 一切正常，现在尝试使用java代码执行相同的操作时： org.apache.hadoop.fs.FileSystem.mkdir(new Path("path//to//folder"),new FsPermission(FsAction.ALL, FsAction.ALL, FsAction.ALL)) 不幸的

浏览 0提问于2017-05-30得票数 1

回答已采纳

1回答

关于向大数据迁移的疑问

hadoop、mapreduce、bigdata、cloudera

我对hadoop有一些疑问在cloudera发布的一段视频中，一位教师告诉我们，在hadoop有HDFS。每个文件将作为一组卡盘或块存储。每个块将在不同的机器中复制三次，以最小化故障点。每个映射器将处理单个hdfs块。从这些逻辑中，我感觉到如果我有一个服务器，它有大约100个peta字节的日志，与hdfs不同，这些日志不是存储在传统文件系统中的。主要疑问1.现在，如果我想使用mapreduce技术有效地分析这个巨大的数据，那么我必须在一个运行hdfs的新服务器中传输数据，并且拥有三倍于旧服务器的存储空间。在另一段视频中，cloudera..the指导员也清楚地提到，我们

浏览 4提问于2014-11-25得票数 0

2回答

Hadoop Hbase工作流

hadoop、hbase

我对hadoop还比较陌生，我通过做一些示例练习来了解它，但我有一个关于如何在实践中使用它的问题。许多应用程序似乎都是面向批处理的(例如日志文件数据)，但我不确定hbase如何适应这里？将日志文件数据存储在hbase中，然后对其进行处理并将其输出到其他存储格式是否很常见？将原始日志文件传递到hadoop，然后将输出存储在hbase中是不是更常见？我想我真正的问题是hbase通常用作hadoop的输入或输出，还是两者兼而有之？

浏览 0提问于2012-04-06得票数 2

回答已采纳

2回答

将文件导入HDFS的不同方法

hadoop、import、hdfs

我想知道将数据带入HDFS的不同方式是什么。我是Hadoop的新手，直到现在我还是一个java web开发人员。我想知道我是否有一个创建日志文件的web应用程序，如何将日志文件导入到HDFS中。

浏览 7提问于2015-09-26得票数 8

2回答

如果已经使用Hadoop，那么HBase还是Mongo用于分析DB？

mongodb、hadoop、hbase、hdfs

我现在有一个Hadoop集群，在这里我存储了大量的日志，我在其中运行用于计算聚合分析的猪脚本。我还拥有一个Mongo集群，在这里存储生产数据。我最近被安置在一个职位上，我需要做很多一次性的分析查询，或者让其他人也能做。这些查询经常需要同时使用生产数据和日志数据，因此无论我使用什么，我都希望将所有内容放在一个地方。我的日志数据在json中，大约是我的prod数据的10倍。以下是我所看到的Mongo和HBase的优缺点： Mongo / HBase Cons: 由于日志数据是用JSON编写的，所以我可以很容易地将它输入Mongo，并且可以通过类似于FluentD的东西实时完成。与我一起

浏览 4提问于2013-05-15得票数 2

2回答

hadoop与mongodb和hadoop对mongodb

mongodb、hadoop、hadoop2

我试图理解mongoDB和Hadoop之间的关键区别。我理解mongoDB是一个数据库，而Hadoop是一个包含HDFS的生态系统。使用这两种技术处理数据的方式有一些相似之处，但也有很大的不同。我不明白为什么有人会在Hadoop集群上使用mongoDB，主要是mongoDB比Hadoop具有什么优势。两者都执行并行处理，两者都可以与Spark一起用于进一步的数据分析，那么什么是一个比另一个的增值。现在，如果要将两者结合起来，为什么要在mongoDB和HDFS中存储数据呢？MongoDB有map/reduce，所以为什么要将数据发送到hadoop进行处理，而且两者都与Spark兼容。

浏览 1提问于2019-05-07得票数 0

回答已采纳

1回答

IBM BigInsights (IBM Hadoop) vs IBM Watson

stream、ibm-watson、biginsights

IBM Watson和IBM Inforsphere BigInsights (IBM Hadoop)/Streams之间的区别是什么？沃森带来了什么BigInsights不会带来的东西？

浏览 4提问于2015-06-17得票数 4

2回答

在伪分布式模式下运行Hadoop时，hadoop.tmp.dir应该使用哪个目录？

linux、ubuntu、configuration、hadoop、hbase

默认情况下，Hadoop会将hadoop.tmp.dir设置为您的/tmp文件夹。这是一个问题，因为当您重新启动时，/tmp会被Linux清除，导致来自JobTracker的这个可爱的错误： 2012-10-05 07:41:13,618 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time(s). ... 2012-10-05 07:41:22,636 INFO org.apache.hadoop.ipc.Cli

浏览 2提问于2012-10-05得票数 5

1回答

从oozie工作流执行配置单元查询时，表未出现异常(E0729)

hadoop、oozie、oozie-coordinator

Script_SusRes.q select * from ufo_session_details limit 5 Workflow_SusRes.xml <?xml version="1.0" encoding="UTF-8"?> <workflow-app xmlns="uri:oozie:workflow:0.4" name="hive-wf"> <start to="hive-node"/> <action name="hive-node&#

浏览 0提问于2015-11-03得票数 0

2回答

分析hadoop集群中被杀的java进程

java、mapreduce、mapr

Java程序在Hadoop集群中执行。它在执行过程中得到OutOfMemoryError，进程停止。我想要分析被杀死的java进程的内存和其他细节。在哪里可以找到被杀死的进程日志文件？我使用sar实用程序分析内存，但它只显示系统内存，而不显示进程内存。

浏览 1提问于2018-03-06得票数 0

2回答

在Haoop上UIMA DUCC与UIMA

hadoop、uima、ducc

我正在尝试设计一个基于UIMA的分布式可伸缩管道。我应该如何决定在Hadoop上使用UIMA、DUCC还是UIMA？如果我把它构建在UIMA DUCC而不是Hadoop或者反之亦然，那么我会错过什么呢？

浏览 1提问于2015-04-26得票数 0

回答已采纳

1回答

在hadoop中使用ImageJ获取awt无头异常

java、hadoop、awt、imagej

我一直试图用ParticleAnalyzer of ImageJ 1.45 / ImageJA构建一个图像处理应用程序。该算法已经在我的mac上进行了完美的测试，但是当我将可运行的jar发送到hadoop集群时，它一直抛出awt的无头异常。我已经在网上查过并尝试过这些方法，但是没有一个解决了问题！另外，我试图在现场捕捉到异常，但是我发现ParticleAnalyzer实际上没有运行(它一直返回0粒子，这是错误的。)我的mac给出了非零的结果！)下面是java代码部分，后面是我从hadoop日志复制的异常。如果有人在Hadoop上使用ImageJ获得成功，请给我一个可靠的代码示例好吗？提

浏览 3提问于2012-10-26得票数 1

1回答

色调到底是怎么回事？

hadoop、hue

我是大数据新手。我想知道关于Hue的事。关于Hue，我只知道它是一个管理Hadoop生态系统的web界面。请让我知道，如果我可以安装在我的电脑(Ubuntu精确)。我在伪分布式模式下运行Apache Hadoop 1.2.1，其中包含PIG和HIVE 提前感谢

浏览 0提问于2014-06-09得票数 10

回答已采纳

1回答

IIS日志实时直连到Hadoop

hadoop、hive、apache-kafka、flume

我正在尝试在Hadoop中为日志聚合做一个POC。我们有多个IIS服务器托管至少100个站点。我想要连续地将日志流式传输到HDFS，并解析数据并存储在Hive中以供进一步分析。 1) Apache KAFKA或Apache Flume是正确的选择 2)流式传输后，使用Apache storm并将数据摄取到Hive中是否更好请提供任何建议，以及此类问题陈述的任何信息。谢谢

浏览 1提问于2016-11-10得票数 0

2回答

这是否是非侵入性的？

solr、hdfs、apache-flink

我想尝试apache flink、hadoop和solr来进行非侵入性的日志摄取，以便对它们进行处理和索引，并进行一些分析和查询。我在考虑使用flink对几个应用程序的应用程序日志进行数据处理，然后将它们放到hadoop上，然后使用solr对它们进行查询。问题是:这真的是非侵入性的吗？Flink的行为类似于flume，在我喜欢监视的服务器中安装和配置代理。hadoop和solr是不是一个很好的组合，可以索引大量日志，然后以sql方式查询这些日志，以便深入了解数据并做出一些在创建警报时有用的预测？谢谢。

浏览 21提问于2019-04-11得票数 0

2回答

pig + hbase + hadoop2集成

hadoop、hbase、apache-pig

在hadoop-2.20+ hbase-0.98.0 +pig-0.12.0组合的环境中，是否有人成功地将数据从hadoop-2.2.0上的pig-0.12.0加载到hbase-0.98.0，而没有遇到此错误： ERROR 2998: Unhandled internal error. org/apache/hadoop/hbase/filter/WritableByteArrayComparable 使用一行日志跟踪： java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/WritableByteArra 我在网上搜索了

浏览 1提问于2014-03-10得票数 2

7回答

从Hadoop中删除文件/文件夹

hadoop、amazon-web-services、amazon-s3、elastic-map-reduce

我正在数据管道中运行电子病历活动，分析日志文件，当我的管道失败时，我得到以下错误 Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy already exists at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat

浏览 417提问于2013-05-29得票数 17

回答已采纳

1回答

我们能用卡桑德拉代替哈多普和星火吗？

database-design、cassandra、application-design、hadoop、apache-spark

考虑到我们有一个用NodeJS编写的后端，并且使用MySQL和Cassandra作为数据库，如果我们想在系统中添加Spark来做一些数据分析工作，比如推荐，我们是否可以使用Cassandra(我是说使用Spark + Cassandra)并达到与Hadoop( Spark + Hadoop)相同的结果？我想知道Hadoop能做卡桑德拉不能做的事吗？或者是什么使得使用Hadoop和火花一起使用是必要的？

浏览 0提问于2022-11-29得票数 2

2回答

为什么在最新的Hadoop中没有内存计算功能？

apache-spark、hadoop、in-memory

我们都知道，Spark使用RAM存储处理过的数据，Spark和Hadoop都使用RAM进行计算，这使得Spark可以以极快的速度访问数据。但是，如果这是一个有很大区别的东西(除了钨和催化剂)，我们可以把它添加到Hadoop中。为什么我们没有仅仅改变Hadoop中的存储例程(在内存中使用它)，而不是完全发明一个不同的工具(Apache )？是否还有其他限制阻止Hadoop在内存存储中实现？

浏览 0提问于2021-01-16得票数 1

回答已采纳

4回答

哪个更适合于日志分析

hadoop、mapreduce、apache-spark、apache-storm、flume

我必须分析Gzip压缩日志文件，这些文件使用、Hadoop相关工具存储在生产服务器上。我无法决定如何做到这一点，以及使用什么，以下是我考虑使用的一些方法(请随意推荐其他方法)：水槽卡夫卡地图缩减在我能够做任何事情之前，我需要从生产服务器获取压缩文件并对它们进行处理，然后将它们推到Apache HBase中。

浏览 4提问于2015-11-24得票数 3

回答已采纳

4回答

Hadoop批处理分析和hadoop实时分析有什么区别？

hadoop、apache-spark

我想知道Hadoop批处理分析和Hadoop实时分析的区别。例如，Hadoop real time analytics可以使用Apache Spark完成，而Hadoop batch analytics可以使用Map reduce编程。另外，如果实时分析是更好的分析方法，那么批量分析需要什么？谢谢

浏览 5提问于2016-02-11得票数 1

3回答

使用java创建带有连接的单元表，并使用jdbc程序检查单元表的列约束。

java、jdbc、hive

嗨，我正在尝试使用jdbc创建一个带有一些约束的单元表表，这给了我一个错误字符串sql1="CREATE sample_hive_table_2 (key1 int主键，value1 string)"；System.out.println(sql1)；res = stmt.executeQuery(sql1)；java.sql.SQLException中的异常:查询返回的非零代码: 40000，原因:失败: ParseException第1行:在create语句中接近'int‘附近的43个不匹配的输入’主‘期望。 at org.apache.hadoop.hive.jd

浏览 0提问于2014-01-16得票数 1

回答已采纳

1回答

Hadoop的白盒性能模型

performance、hadoop、modeling

( )在本技术报告中使用白盒模型计算各种成本。但我对他们的工作有疑问-- 它们仍然适用于当前的Hadoop吗？我不太清楚他们是如何在溢油阶段(报告第6页)做一些像CPU_cost这样的配方的。

浏览 5提问于2015-01-31得票数 0

1回答

用Hadoop来组织和存储大数据并使用Hive查询大数据的正确方法是什么？

hadoop、logging、amazon-web-services、bigdata、amazon-emr

因此，基本上，我有不同平台上的应用程序将日志数据发送到我的服务器。它是一个节点服务器，本质上接受日志条目的有效负载，并将它们保存到各自的日志文件中(作为写流缓冲区，所以速度很快)，并在填充时创建一个新的日志文件。我存储日志的方式实质上是每个“端点”只有一个文件，每个日志文件都由与度量相对应的空格分隔的值组成。例如，player事件日志结构可能如下所示： timestamp user mediatype event 然后日志条目将如下所示 1433421453 bob iPhone play 基于阅读文档，我认为这种格式对Hadoop这样的东西是好的。我认为这样做的方式是将这些日志存储在服务器

浏览 2提问于2015-06-04得票数 0

2回答

Hadoop群集故障转移

hadoop

我对Hadoop集群datanode故障转移有一些疑问： 1: What happen the link is down between the namenode and a datanode (or between 2 datanodes) when the hadoop cluster is processing some data? Does Hadoop cluster have any OOTB to recover this problem? 2: What happen one datanode is down when the hadoop cluster is

浏览 4提问于2013-09-17得票数 1

回答已采纳

1回答

Hadoop、HBase和Hive中的性能问题

hadoop、hive、hbase、hdfs

我正在将数据从SQL迁移到Hadoop，其中我也使用了HBase & Hadoop。我已经成功地将数据从SQL导入到Hadoop、HBase和Hive。但问题在于系统的性能。在SQL中，我在5-10分钟内得到了数百万条条目的结果，但是从HBase & Hive获取1000万个数据需要花费大约1小时的时间。有人能帮我提高Hadoop系统的性能吗？

浏览 5提问于2015-11-20得票数 0

回答已采纳

1回答

以受控方式拆分SequenceFile - Hadoop

hadoop

hadoop以键-值对(记录)格式写入SequenceFile。假设我们有一个很大的无界日志文件。Hadoop将根据块大小拆分文件，并将其保存在多个数据节点上。是否保证每个键值对都驻留在单个块上？或者，我们可能有这样一种情况，即key在节点1上的一个块中，而value(或部分值)在节点2上的第二个块中？如果我们可能会有无意义的完全拆分，那么解决方案是什么？同步标记？另一个问题是: hadoop是自动编写同步标记，还是应该手动编写？

浏览 0提问于2011-12-07得票数 7

回答已采纳

1回答

Windows 10上的Apache hadoop安装

apache、hadoop、windows-10、hadoop2

在Windows10上设置没有Cygwin的单节点集群时，我遵循了特定的文档- 我在使用D:\hadoop-2.6.2.tar\hadoop-2.6.2\hadoop-2.6.2\sbin>start-dfs.cmd启动hdfs时遇到以下错误错误消息堆栈跟踪： 17/01/12 12:25:42 FATAL datanode.DataNode: Exception in secureMain java.lang.RuntimeException: Error while running command to get file permissions : ExitCodeExcepti

浏览 0提问于2017-01-12得票数 3

3回答

对于hadoop来说，java是必需的吗？

java、hadoop、bigdata、cloudera

有人知道是否有必要了解java来学习hadoop吗？如果有人在hadoop上工作，那么请告诉我们在hadoop工作需要什么？ hadoop的确切用途是什么？在hadoop之前有什么？hdfs和gfs有什么区别？我知道有很多问题，但如果有人能帮忙..。那对我来说会很好。多谢各位。

浏览 11提问于2015-09-06得票数 1

1回答

是否有一篇关于Apache的文章试图像White的Hadoop:权威指南那样全面？

bigdata、apache-hadoop、apache-spark

Tom White的“Hadoop :权威指南”已经成为整个Hadoop生态系统的流行指南，并赢得了广泛调查和深入报道Hadoop各个方面的声誉。到目前为止，是否有人试图提供类似的火花？

浏览 0提问于2016-06-04得票数 1

回答已采纳

1回答

分析和搜索地理空间数据(大数据)

mongodb、hadoop、elasticsearch、cassandra、bigdata

在我的公司，我们即将存储大量来自移动GPS的地理位置数据。要求是： 1)能够将这些数据保存在我们的数据库中至少六个月(历史) 2)客户端可以实时执行搜索查询。这意味着我们需要对它们执行一些空间函数 3)为了能够分析数据和点的路径，我们可以对这六个月中较老的点进行良好的平均。我们考虑使用Hadoop文件系统来保存数据，并使用mapReduce对数据进行分析。对于实时查询，我们考虑使用elasticsearch (空间函数和索引)、Mongodb或Cassandra。您认为在这种情况下应该采用什么方法？

浏览 14提问于2016-09-02得票数 0

回答已采纳

1回答

在hcatalog或serde中解析日志文件

hadoop、hcatalog

我是Hadoop的新手。我正在尝试将日志文件加载到HCatalog中。以下是我的日志文件的格式。 Time: 2014-10-28 06:32:34Z UserID: arun GroupID: admin Page: welcome.aspx Message: Login successful Time: 2014-10-28 06:32:34Z UserID: arun GroupID: admin Page: main.aspx Message: menu load .. .. 我需要编写一个SerDe来解析它吗?或者这可以通过正则表达式实现吗？

浏览 4提问于2015-04-23得票数 0

2回答