首页
学习
活动
专区
工具
TVP
发布

挖掘大数据

专栏作者
113
文章
192934
阅读量
71
订阅数
大数据初学者该如何快速入门?
很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么大讲台老师就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。
挖掘大数据
2018-01-17
4.5K0
ambari安装指南
(一)准备工作 1、准备几台机器 10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器 10.1.51.10 master 10.1.51.11 slave1 10.1.51.12 slave2 2、都创建管理用户hadoop 3、做ssh免密码登录(ambariserver到其他机器的,hadoop用户) ssh-keygen cd .ssh cat id_rsa.pub >> authorized_keys chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys 注意,免密码一定要互相登陆一次,让他记住密码 4、设置sudo免密码(hadoop用户)---后续所有操作都在hadoop用户下去做 在各节点上进入root: visudo 加入如下内容: hadoop ALL=(ALL) NOPASSWD: ALL 5、Maximum Open File Descriptors(10000) 检查语句 ulimit -Sn ulimit -Hn sudo vi /etc/security/limits.conf @hadoop soft nproc 262144 @hadoop hard nproc 262144 @hadoop soft nofile 262144 @hadoop hard nofile 262144 sudo vi /etc/security/limits.d/90-nproc.conf @hadoop soft nproc 262144 以上改动重启才能生效,最好同时执行ulimit -u 10240 命令,是其立即生效。(ulimit 命令很多啊) 6、Check Existing Package Versions 7、Set up Service User Accounts(设置服务用户账户) http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-70627b43-7d78-4cbb-8df8-e3f43cbd8422 hdp的各个服务运行在不同的linux账户下,如果你创建了这些账户,ambari就会直接用,否则他会自动创建,但是自动创建的用户不知道密码是什么,但是还是可以 sudo su hdfs进入到这些用户下,不过这样就不方便了。 比较好的办法是自己创建的账户,使用ambari安装组件时选择自定义账户即可(UID >= 1000)。 8、Enable NTP on the Cluster and on the Browser Host 集群各节点,包括安装ambari webui的机器都得开启ntp服务已同步时间,如果有条件,局域网应该有ntp服务器 To check that the NTP service is on, run the following command on each host:chkconfig --list ntpd To set the NTP service to start on reboot, run the following command on each host:chkconfig ntpd on To turn on the NTP service, run the following command on each host:service ntpd start 9、Check DNS(可以选择10) 集群所有机器必须配置正向和反向DNS,如果条件不允许,就设置/etc/hosts文件,每个节点都得改 10、/etc/hosts 1.2.3.4 <fully.qualified.domain.name> //一行一个 注意:这两行千万不要删除 127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6 vi /etc/sysconfig/network NETWORKING=yesNETWORKING_IPV6=yes HOSTNAME=<fully.qualified.domain.name> 11、关闭防火墙 12、Disable SELinux and PackageKit and check the umask Value set SELINUX=disabled in /etc/selinux/config sudo vi /etc/yum/pluginconf.d/refresh-packagekit.conf 设置:enabled=0 Ambari supports a umask value
挖掘大数据
2018-01-16
1.5K0
超详细的大数据学习资源推荐(下)
服务编程 Akka Toolkit:JVM中分布性、容错事件驱动应用程序的运行时间; Apache Avro:数据序列化系统; Apache Curator:Apache ZooKeeper的Java库; Apache Karaf:在任何OSGi框架之上运行的OSGi运行时间; Apache Thrift:构建二进制协议的框架; Apache Zookeeper:流程管理集中式服务; Google Chubby:一种松耦合分布式系统锁服务; Linkedin Norbert:集
挖掘大数据
2018-01-15
2.1K0
大数据面试秘诀:30道hadoop面试真题和解析
近年来,大数据概念被炒的非常热,大数据公司也在快速的崛起,而人才的需求也越来越多。对于正在找大数据相关工作的同学们来说,面试时遇到什么问题才是他们最关心的。在下文中,本文专门搜集了86道hadoop面试时出现过的题目,希望助同学们面试一臂之力。
挖掘大数据
2018-01-11
7910
整合Kafka到spark-streaming实例
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益。
挖掘大数据
2018-01-09
5K0
kafka性能技术分析
本文介绍了Kafka中的Producer和Consumer组件,包括它们的组件设计、功能、性能优化、适用场景和注意事项。同时,还探讨了Kafka中Partition的设计理念和Zookeeper在Kafka中的角色。
挖掘大数据
2018-01-03
2K0
远程连接hive server流程详解
本文介绍了如何通过HiveServer2、beeline、SQuirrel SQL Client等工具远程连接HiveServer2,并执行SQL语句。主要包括了配置HiveServer2、客户端连接、执行SQL语句、结果展示等功能。
挖掘大数据
2017-12-28
3.8K0
PipeLineDB数据库介绍和总结
该文对PipelineDB数据库进行了介绍和总结。PipelineDB是一种基于PostgreSQL的关系型数据库,支持在流式数据中持续运行SQL查询。它可以用于实时数据管道,逐渐将结果存储在表中。PipelineDB具有高性能、可扩展性、支持分表分库等特点。同时,它还支持窗口操作和存储过程。但是,PipelineDB不支持窗口函数,并且需要用户自己管理数据生命周期。
挖掘大数据
2017-12-27
1.5K0
大数据分析平台 Apache Spark详解
本文介绍了Apache Spark的四个主要应用场景,包括大数据处理、机器学习、图计算和流处理。Spark可以处理批量数据和流数据,并且提供了简单易用的API。同时,Spark还支持多种编程语言,包括Python、Java和Scala等,使得开发人员可以更加便捷地开发复杂的数据处理应用。
挖掘大数据
2017-12-27
2.8K0
国家电网推进全业务数据中心建设
本文介绍了大数据分析平台在电网公司中的应用场景、分析模型和主要功能,通过具体案例展示了如何通过大数据分析技术提升电网公司的业务效率和智能化水平。
挖掘大数据
2017-12-22
2.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档