首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

“读字节聊大数据”进入大数据领域的学习路线是什么?

文字内容:

想要进入大数据领域,首先最好要有一个演练场景,也就是你服务的客户具备大量非结构化的数据。若无法满足这一点,其实也不必烦恼,留意有些书的例子就带了很多数据,例如Google的Kaggle网站,有很多美国公共事业的数据。

其次学习大数据要有足够的机器资源,一台8核,16g—32g内存的电脑应该算学习的最低配置吧,现在大部分好点笔记本都能支持。切记是学习大数据技术而不是深度学习啊,那个深度学习硬件配置都是3万起步。

学习大数据一定要从数据的采集、处理(包括流,批)、消息队列和存储入手。这是大数据技术的生命周期

技术路线上,我建议先首先从nosql开始,学会文档数据库,键值对数据库的存储,也最好上手,像elasticsearch,MongoDB,Redis等等先来一圈

其次从日志流式管道入手,理解一下大数据传输的整体生命周期,那么学习elk技术,也就是filebeat采集文件或日志,logstash清洗过滤,kafka临时中转,再写入elasticsearch,Kibana最终显示。那么你会对大数据流的过程有了深刻的认识。

好了,做完上面的事情,总算大数据学习前的热身了!哈哈哈

开始进入正题

第一步开始使用推荐的硬件配置,开始搭建集群,zookeeper集群,做分布式调度;hdfs集群做分布式文件系统;yarn集群做分布式计算;hbase集群列式稀疏存储

第二步Hadoop生态工具搭建,hive工具,实现SQL接口视图加元数据存储;sqoop做rdbms数据库到hdfs的物化视图;flume替换elk,做文件或日志的流式采集进入hdfs。

第三步,开始你的基础编程之旅,包括hdfs的Java调用,MapReduce的程序实现,理解hdfs的块结构,理解MapReduce的计数,排序,连接和聚合,理解分区和分桶等等。另外还要理解实践avro容器格式,parquet列式格式,理解压缩,这些都是根本。

第四步,开始spark之旅,搭建spark集群,学习什么是rdd,dataframe,学习scala语言,会Python更好,学习spark streaming如何将rdd转换成微批模式和流式处理

好吧,有了这些功底,就可以开始一些机器学习或数据科学分析或数据挖掘的学习了。祝愿你能成为大数据这方面的专家。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210315A07Z0Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券