首页
学习
活动
专区
工具
TVP
发布

挖掘大数据

专栏作者
113
文章
193931
阅读量
71
订阅数
如何成为一名10x的数据分析师?
不知道大家以前听没听说过“10x Developer”这个词,如果你连听都还没听说过,那可真是时候考虑放弃自己的程序猿事业了。就像传说一样,一些程序猿的战斗力能达到同行的10倍,也就是说一个10x程序猿能够替换一个10人的开发团队。
挖掘大数据
2018-01-17
7960
Win7下Eclipse开发hadoop应用程序环境搭建
在Linux下使用安装Eclipse来进行hadoop应用开发,但是大部分Java程序员对linux系统不是那么熟悉,所以需要在windows下开发hadoop程序,经过试验,总结了如何在windows下使用Eclipse来开发hadoop程序代码。 1、需要下载hadoop的专门插件jar包   hadoop版本为2.3.0,hadoop集群搭建在centos6x上面,把插件包下载后,jar包名字为hadoop-eclipse-plugin-2.3.0,可以适用于hadoop2x系列软件版本。 2、把插件包放到eclipse/plugins目录下   为了以后方便,我这里把尽可能多的jar包都放进来了。 3、重启eclipse,配置Hadoopinstallationdirectory   如果插件安装成功,打开Windows—Preferences后,在窗口左侧会有HadoopMap/Reduce选项,点击此选项,在窗口右侧设置Hadoop安装路径。  4、配置Map/ReduceLocations   打开Windows-->OpenPerspective-->Other   选择Map/Reduce,点击OK,在右下方看到有个Map/ReduceLocations的图标,点击Map/ReduceLocation选项卡,点击右边小象图标,打开HadoopLocation配置窗口:输入LocationName,任意名称即可.配置Map/ReduceMaster和DFSMastrer,Host和Port配置成与core-site.xml的设置一致即可。   去找core-site.xml配置:   fs.default.namehdfs://name01:9000   点击"Finish"按钮,关闭窗口。点击左侧的DFSLocations—>myhadoop(上一步配置的locationname),如能看到user,表示安装成功,但是进去看到报错信息:Error:Permissiondenied:user=root,access=READ_EXECUTE,inode="/tmp";hadoop:supergroup:drwx---------。 应该是权限问题:把/tmp/目录下面所有的关于hadoop的文件夹设置成hadoop用户所有然后分配授予777权限。   cd/tmp/   chmod777/tmp/   chown-Rhadoop.hadoop/tmp/hsperfdata_root   之后重新连接打开DFSLocations就显示正常了。   Map/ReduceMaster(此处为Hadoop集群的Map/Reduce地址,应该和mapred-site.xml中的mapred.job.tracker设置相同)   (1):点击报错:   Aninternalerroroccurredduring:"ConnectingtoDFShadoopname01".   java.net.UnknownHostException:name01   直接在hostname那一栏里面设置ip地址为:192.168.52.128,即可,这样就正常打开了,如下图所示:   5、新建WordCount项目   File—>Project,选择Map/ReduceProject,输入项目名称WordCount等。   在WordCount项目里新建class,名称为WordCount,报错代码如下:InvalidHadoopRuntimespecified;pleaseclick'ConfigureHadoopinstalldirectory'orfillinlibrarylocationinputfield,报错原因是目录选择不对,不能选择在跟目录E:\hadoop下,换成E:\u\hadoop\就可以了,如下所示:   一路下一步过去,点击Finished按钮,完成工程创建,Eclipse控制台下面出现如下信息:   14-12-9下午04时03分10秒:EclipseisrunninginaJRE,butaJDKisrequired   SomeMavenpluginsmaynotworkwhenimportingprojectsorupdatingsourcefolders.   14-12-9下午04时03分13秒:Refreshing[/WordCount/pom.xml]   14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml]   14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml]   14-12-9下午04时03分14秒:Updatingindexcentral|http://repo1.maven.o
挖掘大数据
2018-01-17
1.1K0
处理海量数据的10种常见方法
本文将介绍10种处理海量数据问题的常见方法,也可以说是对海量数据的处理方法进行一个简单的总结,希望对你有帮助。
挖掘大数据
2018-01-17
1.5K1
常用的Hadoop 文件查看工具
packages.config <?xml version="1.0" encoding="utf-8"?> <packages> <package id="Microsoft.AspNet.W
挖掘大数据
2018-01-15
1.9K0
IDC企业级WLAN榜单揭晓,新华三瞄准“十连冠”
本文介绍了新华三集团在中国区企业级WLAN市场中的优势地位,通过不断创新和升级,积累了五百多款产品,并致力于为客户提供高品质服务。新华三的无线产品已在多个领域广泛应用,包括互联网、医疗、教育、政务、交通等。此外,新华三还积极与行业合作伙伴共同推动市场变革,以开放合作的心态推动产业发展。
挖掘大数据
2018-01-04
6830
干货:流计算框架 Flink 与 Storm 的性能对比
挖掘大数据
2017-12-25
2.2K0
教程说明:HBase下载、安装与配置
本文介绍了HBase的下载、安装与配置,包括单机模式、伪分布式模式和完全分布式模式。HBase是一个基于Hadoop的分布式列存数据库,采用Zookeeper进行协调和管理,通过HDFS和MapReduce进行数据存储和计算。
挖掘大数据
2017-12-20
1.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档