腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
挖掘大数据
专栏作者
举报
113
文章
192934
阅读量
71
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
hadoop
人工智能
spark
数据处理
数据库
其他
apache
机器学习
java
云数据库 SQL Server
分布式
数据可视化
数据挖掘
mongodb
linux
企业
编程算法
开源
hbase
区块链
python
javascript
scala
node.js
ajax
eclipse
github
搜索引擎
神经网络
深度学习
日志服务
访问管理
生物基因
http
存储
运维
网络安全
hive
openstack
zookeeper
敏捷开发
uml
数据分析
系统架构
基础教育
搜索文章
搜索
搜索
关闭
大数据初学者该如何快速入门?
大数据
数据处理
spark
数据库
云数据库 SQL Server
很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么大讲台老师就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。
挖掘大数据
2018-01-17
4.5K
0
ambari安装指南
云数据库 SQL Server
linux
数据库
(一)准备工作 1、准备几台机器 10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器 10.1.51.10 master 10.1.51.11 slave1 10.1.51.12 slave2 2、都创建管理用户hadoop 3、做ssh免密码登录(ambariserver到其他机器的,hadoop用户) ssh-keygen cd .ssh cat id_rsa.pub >> authorized_keys chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys 注意,免密码一定要互相登陆一次,让他记住密码 4、设置sudo免密码(hadoop用户)---后续所有操作都在hadoop用户下去做 在各节点上进入root: visudo 加入如下内容: hadoop ALL=(ALL) NOPASSWD: ALL 5、Maximum Open File Descriptors(10000) 检查语句 ulimit -Sn ulimit -Hn sudo vi /etc/security/limits.conf @hadoop soft nproc 262144 @hadoop hard nproc 262144 @hadoop soft nofile 262144 @hadoop hard nofile 262144 sudo vi /etc/security/limits.d/90-nproc.conf @hadoop soft nproc 262144 以上改动重启才能生效,最好同时执行ulimit -u 10240 命令,是其立即生效。(ulimit 命令很多啊) 6、Check Existing Package Versions 7、Set up Service User Accounts(设置服务用户账户) http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-70627b43-7d78-4cbb-8df8-e3f43cbd8422 hdp的各个服务运行在不同的linux账户下,如果你创建了这些账户,ambari就会直接用,否则他会自动创建,但是自动创建的用户不知道密码是什么,但是还是可以 sudo su hdfs进入到这些用户下,不过这样就不方便了。 比较好的办法是自己创建的账户,使用ambari安装组件时选择自定义账户即可(UID >= 1000)。 8、Enable NTP on the Cluster and on the Browser Host 集群各节点,包括安装ambari webui的机器都得开启ntp服务已同步时间,如果有条件,局域网应该有ntp服务器 To check that the NTP service is on, run the following command on each host:chkconfig --list ntpd To set the NTP service to start on reboot, run the following command on each host:chkconfig ntpd on To turn on the NTP service, run the following command on each host:service ntpd start 9、Check DNS(可以选择10) 集群所有机器必须配置正向和反向DNS,如果条件不允许,就设置/etc/hosts文件,每个节点都得改 10、/etc/hosts 1.2.3.4 <fully.qualified.domain.name> //一行一个 注意:这两行千万不要删除 127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6 vi /etc/sysconfig/network NETWORKING=yesNETWORKING_IPV6=yes HOSTNAME=<fully.qualified.domain.name> 11、关闭防火墙 12、Disable SELinux and PackageKit and check the umask Value set SELINUX=disabled in /etc/selinux/config sudo vi /etc/yum/pluginconf.d/refresh-packagekit.conf 设置:enabled=0 Ambari supports a umask value
挖掘大数据
2018-01-16
1.5K
0
超详细的大数据学习资源推荐(下)
数据库
大数据
云数据库 SQL Server
服务编程 Akka Toolkit:JVM中分布性、容错事件驱动应用程序的运行时间; Apache Avro:数据序列化系统; Apache Curator:Apache ZooKeeper的Java库; Apache Karaf:在任何OSGi框架之上运行的OSGi运行时间; Apache Thrift:构建二进制协议的框架; Apache Zookeeper:流程管理集中式服务; Google Chubby:一种松耦合分布式系统锁服务; Linkedin Norbert:集
挖掘大数据
2018-01-15
2.1K
0
大数据面试秘诀:30道hadoop面试真题和解析
大数据
hbase
数据处理
数据库
近年来,大数据概念被炒的非常热,大数据公司也在快速的崛起,而人才的需求也越来越多。对于正在找大数据相关工作的同学们来说,面试时遇到什么问题才是他们最关心的。在下文中,本文专门搜集了86道hadoop面试时出现过的题目,希望助同学们面试一臂之力。
挖掘大数据
2018-01-11
791
0
整合Kafka到spark-streaming实例
云数据库 SQL Server
数据库
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益。
挖掘大数据
2018-01-09
5K
0
kafka性能技术分析
数据处理
数据库
本文介绍了Kafka中的Producer和Consumer组件,包括它们的组件设计、功能、性能优化、适用场景和注意事项。同时,还探讨了Kafka中Partition的设计理念和Zookeeper在Kafka中的角色。
挖掘大数据
2018-01-03
2K
0
远程连接hive server流程详解
数据库
本文介绍了如何通过HiveServer2、beeline、SQuirrel SQL Client等工具远程连接HiveServer2,并执行SQL语句。主要包括了配置HiveServer2、客户端连接、执行SQL语句、结果展示等功能。
挖掘大数据
2017-12-28
3.8K
0
PipeLineDB数据库介绍和总结
数据库
该文对PipelineDB数据库进行了介绍和总结。PipelineDB是一种基于PostgreSQL的关系型数据库,支持在流式数据中持续运行SQL查询。它可以用于实时数据管道,逐渐将结果存储在表中。PipelineDB具有高性能、可扩展性、支持分表分库等特点。同时,它还支持窗口操作和存储过程。但是,PipelineDB不支持窗口函数,并且需要用户自己管理数据生命周期。
挖掘大数据
2017-12-27
1.5K
0
大数据分析平台 Apache Spark详解
spark
apache
数据库
本文介绍了Apache Spark的四个主要应用场景,包括大数据处理、机器学习、图计算和流处理。Spark可以处理批量数据和流数据,并且提供了简单易用的API。同时,Spark还支持多种编程语言,包括Python、Java和Scala等,使得开发人员可以更加便捷地开发复杂的数据处理应用。
挖掘大数据
2017-12-27
2.8K
0
国家电网推进全业务数据中心建设
数据可视化
数据库
本文介绍了大数据分析平台在电网公司中的应用场景、分析模型和主要功能,通过具体案例展示了如何通过大数据分析技术提升电网公司的业务效率和智能化水平。
挖掘大数据
2017-12-22
2.3K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档