腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

挖掘大数据

专栏作者

113

文章

192964

阅读量

71

订阅数

Kafka定时清除过期数据

Kafka将数据持久化到了硬盘上，允许你配置一定的策略对数据清理，清理的策略有两个，删除和压缩。

挖掘大数据

2018-01-19

5.9K0

零基础学习大数据，搭建Hadoop处理环境

linux hadoop apache

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作需要用到的知识介绍。

挖掘大数据

2018-01-19

3.4K3

Spark学习笔记——共享变量

通常，当传递给Spark操作（例如map or reduce）的函数在远程集群节点上执行时，它可以在函数中使用的所有变量的单独副本上工作。这些变量被复制到每个机器，并且远程机器上的变量的更新都不会被传播回到驱动程序。在任务之间支持一般的，读写共享变量将是低效的。然而，Spark 为两种常用的使用模式提供了两种有限类型的共享变量：广播变量和累加器。

挖掘大数据

2018-01-19

1.1K0

另类大数据：中国有嘻哈的rapper们都在唱些什么？

2017年下半年，钱多、戏多、话题多的《中国有嘻哈》突然带火了一众rapper，原来格格不入的嘻哈音乐突然变成了主流。数据统计显示，截至9月7日，《中国有嘻哈》累计播放量29.9亿，豆瓣评分7.2。目前在新浪微博上，相关话题的讨论已达2619万条，阅读量超过65.6亿。那么，大家是否好奇过中国的rapper们唱的、想的、要的都是啥，我们用大数据分析一下。

挖掘大数据

2018-01-19

1.3K0

常见的3种Hive参数配置方法

数据处理 hive

Hive提供三种可以改变环境变量的方法，分别是：（1）、修改${HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。

挖掘大数据

2018-01-19

2.3K0

入门必读：Hadoop新手学习指导

java 大数据 hadoop 运维

零基础学习hadoop，没有想象的那么困难，也没有想象的那么容易。从一开始什么都不懂，到能够搭建集群，开发。整个过程，只要有Linux基础，虚拟机化和java基础，其实hadoop并没有太大的困难。下面整理一下整个学习过程，给大家一个参考。

挖掘大数据

2018-01-19

8840

时代的需要：越来越多的Java工程师开始转向hadoop？

数据处理大数据 apache java

Hadoop是Apache软件基金会的顶级开源项目，是由原雅虎公司Doug Cutting根据Google发布的学术论文而创建的开源项目。Doug Cutting被称为Hadoop之父，他打造了目前在云计算和大数据领域里如日中天的Hadoop。

挖掘大数据

2018-01-19

5180

详解使用hadoop2.6.0搭建5个节点的分布式集群（附代码）

数据处理 hadoop 分布式

我们使用hadoop2.6.0版本配置Hadoop集群，同时配置NameNode+HA、ResourceManager+HA，并使用zookeeper来管理Hadoop集群

挖掘大数据

2018-01-19

1.1K0

Hadoop基础教程——Hadoop单机版搭建

最近闲来无事，和朋友一起想学习Hadoop，最晚弄机器的弄到两点多，今天一起动手安装Hadoop的环境，刚开始也是一头雾水，Hadoop官网的教程我也是醉了，说的牛头不对马嘴，最后只能通过各种百度解决了问题，最后把安装的一些操作都记录下来，希望可以帮助到后来人

挖掘大数据

2018-01-19

1.2K0

EasyStack郭长波连任OpenStack基金会独立董事

美国时间1月12日，OpenStack基金会的个人独立董事选举结果揭晓，EasyStack开源社区负责人郭长波通过选举，连任个人独立董事，将继续推动中国力量话语权。

挖掘大数据

2018-01-19

8660

如何成为一名10x的数据分析师？

不知道大家以前听没听说过“10x Developer”这个词，如果你连听都还没听说过，那可真是时候考虑放弃自己的程序猿事业了。就像传说一样，一些程序猿的战斗力能达到同行的10倍，也就是说一个10x程序猿能够替换一个10人的开发团队。

挖掘大数据

2018-01-17

7890

Win7下Eclipse开发hadoop应用程序环境搭建

在Linux下使用安装Eclipse来进行hadoop应用开发，但是大部分Java程序员对linux系统不是那么熟悉，所以需要在windows下开发hadoop程序，经过试验，总结了如何在windows下使用Eclipse来开发hadoop程序代码。 1、需要下载hadoop的专门插件jar包 hadoop版本为2.3.0，hadoop集群搭建在centos6x上面，把插件包下载后，jar包名字为hadoop-eclipse-plugin-2.3.0，可以适用于hadoop2x系列软件版本。 2、把插件包放到eclipse/plugins目录下为了以后方便，我这里把尽可能多的jar包都放进来了。 3、重启eclipse，配置Hadoopinstallationdirectory 如果插件安装成功，打开Windows—Preferences后，在窗口左侧会有HadoopMap/Reduce选项，点击此选项，在窗口右侧设置Hadoop安装路径。 4、配置Map/ReduceLocations 打开Windows-->OpenPerspective-->Other 选择Map/Reduce，点击OK，在右下方看到有个Map/ReduceLocations的图标，点击Map/ReduceLocation选项卡，点击右边小象图标，打开HadoopLocation配置窗口：输入LocationName，任意名称即可.配置Map/ReduceMaster和DFSMastrer，Host和Port配置成与core-site.xml的设置一致即可。去找core-site.xml配置： fs.default.namehdfs://name01:9000 点击"Finish"按钮，关闭窗口。点击左侧的DFSLocations—>myhadoop（上一步配置的locationname)，如能看到user，表示安装成功，但是进去看到报错信息：Error:Permissiondenied:user=root,access=READ_EXECUTE,inode="/tmp";hadoop:supergroup:drwx---------。应该是权限问题：把/tmp/目录下面所有的关于hadoop的文件夹设置成hadoop用户所有然后分配授予777权限。 cd/tmp/ chmod777/tmp/ chown-Rhadoop.hadoop/tmp/hsperfdata_root 之后重新连接打开DFSLocations就显示正常了。 Map/ReduceMaster(此处为Hadoop集群的Map/Reduce地址，应该和mapred-site.xml中的mapred.job.tracker设置相同) （1）：点击报错： Aninternalerroroccurredduring:"ConnectingtoDFShadoopname01". java.net.UnknownHostException:name01 直接在hostname那一栏里面设置ip地址为：192.168.52.128，即可，这样就正常打开了，如下图所示： 5、新建WordCount项目 File—>Project，选择Map/ReduceProject，输入项目名称WordCount等。在WordCount项目里新建class，名称为WordCount，报错代码如下：InvalidHadoopRuntimespecified;pleaseclick'ConfigureHadoopinstalldirectory'orfillinlibrarylocationinputfield，报错原因是目录选择不对，不能选择在跟目录E:\hadoop下，换成E:\u\hadoop\就可以了，如下所示：一路下一步过去，点击Finished按钮，完成工程创建，Eclipse控制台下面出现如下信息： 14-12-9下午04时03分10秒:EclipseisrunninginaJRE,butaJDKisrequired SomeMavenpluginsmaynotworkwhenimportingprojectsorupdatingsourcefolders. 14-12-9下午04时03分13秒:Refreshing[/WordCount/pom.xml] 14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml] 14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml] 14-12-9下午04时03分14秒:Updatingindexcentral|http://repo1.maven.o

挖掘大数据

2018-01-17

1.1K0

Hadoop生态圈和各组件的启动、关闭脚本介绍

Hadoop生态圈各组件的启动及关闭脚本，虽然有些使用频率不高，不容易记住，这里特地整理出来，大家可以先保存，用的时候就方便了。

挖掘大数据

2018-01-17

1.3K0

处理海量数据的10种常见方法

本文将介绍10种处理海量数据问题的常见方法，也可以说是对海量数据的处理方法进行一个简单的总结，希望对你有帮助。

挖掘大数据

2018-01-17

1.5K1

大数据初学者该如何快速入门？

大数据数据处理 spark 数据库云数据库 SQL Server

很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的呢？用不用参加大数据培训呢？如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么大讲台老师就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。

挖掘大数据

2018-01-17

4.5K0

10种受欢迎的数据挖掘的实用分析方法

数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，本文将介绍数据挖掘中十种实用分析方法。

挖掘大数据

2018-01-17

6910

Apache NiFi 简介及Processor实战应用

Apache NiFi是什么？NiFi官网给出如下解释：“一个易用、强大、可靠的数据处理与分发系统”。通俗的来说，即Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统，其为数据流设计，它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。为了对NiFi能够表述的更为清楚，下面通过NiFi的架构来做简要介绍，如下图所示。

挖掘大数据

2018-01-17

7.2K0

收藏！6道常见hadoop面试题及答案解析

你准备好面试了吗？呀，需要Hadoop面试题知识！不要慌！这里有一些可能会问到的问题以及你应该给出的答案。

挖掘大数据

2018-01-16

2.5K0

10个大数据误区，看看你中了几个？

人工智能机器学习大数据 mongodb

刚接触大数据的朋友最容易产生以下误解，下面就让我把这些误解分别介绍一下，看看你有没有进入这些误区。

挖掘大数据

2018-01-16

6240

ambari安装指南

云数据库 SQL Server linux 数据库

（一）准备工作 1、准备几台机器 10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器 10.1.51.10 master 10.1.51.11 slave1 10.1.51.12 slave2 2、都创建管理用户hadoop 3、做ssh免密码登录(ambariserver到其他机器的，hadoop用户) ssh-keygen cd .ssh cat id_rsa.pub >> authorized_keys chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys 注意，免密码一定要互相登陆一次，让他记住密码 4、设置sudo免密码(hadoop用户)---后续所有操作都在hadoop用户下去做在各节点上进入root: visudo 加入如下内容： hadoop ALL=(ALL) NOPASSWD: ALL 5、Maximum Open File Descriptors(10000) 检查语句 ulimit -Sn ulimit -Hn sudo vi /etc/security/limits.conf @hadoop soft nproc 262144 @hadoop hard nproc 262144 @hadoop soft nofile 262144 @hadoop hard nofile 262144 sudo vi /etc/security/limits.d/90-nproc.conf @hadoop soft nproc 262144 以上改动重启才能生效，最好同时执行ulimit -u 10240 命令，是其立即生效。（ulimit 命令很多啊） 6、Check Existing Package Versions 7、Set up Service User Accounts(设置服务用户账户) http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-70627b43-7d78-4cbb-8df8-e3f43cbd8422 hdp的各个服务运行在不同的linux账户下，如果你创建了这些账户，ambari就会直接用，否则他会自动创建，但是自动创建的用户不知道密码是什么，但是还是可以 sudo su hdfs进入到这些用户下，不过这样就不方便了。比较好的办法是自己创建的账户，使用ambari安装组件时选择自定义账户即可(UID >= 1000)。 8、Enable NTP on the Cluster and on the Browser Host 集群各节点，包括安装ambari webui的机器都得开启ntp服务已同步时间，如果有条件，局域网应该有ntp服务器 To check that the NTP service is on, run the following command on each host:chkconfig --list ntpd To set the NTP service to start on reboot, run the following command on each host:chkconfig ntpd on To turn on the NTP service, run the following command on each host:service ntpd start 9、Check DNS(可以选择10) 集群所有机器必须配置正向和反向DNS,如果条件不允许，就设置/etc/hosts文件，每个节点都得改 10、/etc/hosts 1.2.3.4 <fully.qualified.domain.name> //一行一个注意：这两行千万不要删除 127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6 vi /etc/sysconfig/network NETWORKING=yesNETWORKING_IPV6=yes HOSTNAME=<fully.qualified.domain.name> 11、关闭防火墙 12、Disable SELinux and PackageKit and check the umask Value set SELINUX=disabled in /etc/selinux/config sudo vi /etc/yum/pluginconf.d/refresh-packagekit.conf 设置：enabled=0 Ambari supports a umask value

挖掘大数据

2018-01-16

1.5K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态