专栏首页加米谷大数据大数据学习的关键技术知识体系及学习建议

大数据学习的关键技术知识体系及学习建议

大数据技术涉及内容庞杂,应用领域广泛,各领域和方向采用的关键技术差异性也会较大。本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么。

1

大数据应用的目标是普适智能

要学好大数据,首先要明确大数据应用的目标。

大数据的终极目标是利用一系列信息技术实现海量数据条件下的人类深度洞察和决策智能化,最终走向普适的人机智能融合!这不仅是传统信息化管理的扩展延伸,也是人类社会发展管理智能化的核心技术驱动力。通过大数据应用,面向过去,发现数据规律,归纳已知;面向未来,挖掘数据趋势,预测未知。

国外大数据企业关系图

2

从大数据版图看数据科学关键技术

数据科学可以理解为一个跨多学科领域的,从数据中获取知识的科学方法,技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,人工智能,深度学习,数据可视化,数据挖掘,数据仓库,以及高性能计算等。图灵奖得主Jim Gray把数据科学喻为科学的“第四范式”(经验、理论、计算和数据驱动),并断言因为信息技术的影响和数据的泛滥增长,未来不管什么领域的科学问题都将由数据所驱动。

典型的数据科学过程

大数据时代,需要智能预测和分析支持了,所以核心技术离不开机器学习、数据挖掘、人工智能等,另外还需考虑海量数据的分布式存储管理和机器学习算法并行处理,所以数据的大规模增长客观上促进了DT技术生态的繁荣与发展,包括大数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算、多模态计算、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。

大数据时代的技术和产品也正处于优胜劣汰的过程。下面我们来看2017版的大数据版图:

国外和国内中关村大数据产业版图

上述大数据版图基本涵盖了国外大数据相关技术和产业链(国内中关村版的大数据技术和企业还是太少,多是传统信息技术企业在凑数)。

大数据产业链从数据源--〉开源技术--〉基础设施--〉分析计算--〉行业应用到产品落地,每个链条环节和下辖的细分内容都涉及大量数据分析技术。

学习大数据首先要搞清楚的问题:

(1)机器学习

机器学习是大数据处理承上启下的关键技术,机器学习往上是深度学习、人工智能,机器学习往下是数据挖掘和统计学习。核心目标是通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现让计算机拥有对数据进行自动分类和预测的功能。 大数据处理要智能化,机器学习是核心的核心。

(2)数据挖掘

数据挖掘核心技术来自于机器学习领域,数据挖掘的提法比机器学习要早,应用范围要广,数据挖掘和机器学习是大数据分析的核心技术,互为支撑,为大数据处理提供相关模型和算法,而模型和算法是大数据处理的关键。

(3)人工智能

AI的终极目标是机器智能化拟人化,机器能完成和人一样的工作,能够处理种种复杂的问题。

人工智能与机器学习的关系,两者的相当一部分技术、算法都是重合的,深度学习在计算机视觉和棋牌走步等领域取得了巨大的成功,但深度学习在现阶段还不能实现类脑计算,最多达到仿生层面,情感,记忆,认知,经验等人类独有能力机器在短期难以达到。

(4)其它大数据处理基础技术

大数据基础技术包括计算机科学相关如编程、机器学习的理论基础、商业分析与理解、数据管理等。这些理论与技术是为大数据的基础管理、机器学习和应用决策等多个方面服务的。

数据科学的技术维度

所以怎么从点到面,构建大数据领域完整的知识结构和分析能力至关重要,某方面的技术和语言只是工具而已。

首先要搞清楚大数据产业链的情况,接下来要明确大数据技术栈也就是相关技术体系,最后定下学习目标和应用方向,每个方向所用技术有较大差异,需要找准学习的兴趣点和切入点。

上面这个大数据技术栈和学习路线图,可以说是一个大数据学习的总纲,专业性很强,值得初学者深入研究和理解。

大数据学习,需要结合自己的兴趣或工作需求,找一个点猛扎进去,掌握这个点的相关技术,深入理解其分析的流程、应用和评价等环节,搞透彻一个点之后,再以点带面,举一反三,逐步覆盖大数据各个领域,从而构建完整的知识结构和技术能力体系,这才是大数据学习的最佳路径。

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据的五大发展趋势

    近几年大数据被越来越广泛的运用到各个领域,也得到了企业对大数据人才的重视,许多公司开始或正在实施和扩展大数据技术应用,大数据在行业内的火爆程度,已经是互联网公司...

    加米谷大数据
  • 大数据的五大发展趋势

    近几年大数据被越来越广泛的运用到各个领域,也得到了企业对大数据人才的重视,许多公司开始或正在实施和扩展大数据技术应用,大数据在行业内的火爆程度,已经是互联网公司...

    加米谷大数据
  • 数据科学最终迁移到云端的5个原因

    数据科学家为企业产生洞察力提供帮助,并进行预测,以实现更明智的业务决策。以下是数据科学家应该放弃笔记本电脑或本地服务器,并将其业务迁移到云端的五个充分...

    加米谷大数据
  • 学习大数据必备的5大核心技术,你知道几个?第二个我们都学过

    “数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。”-Will Cukierski,Head of Competitions & Data Sc...

    用户2292346
  • 简明数据科学(1):啥啥啥?这都是啥?

    原文:Data Science Simplified Part 1: Principles and Process 译者:杨德杰 2006年,英国数学家、Tes...

    陆勤_数据人网
  • 机器学习太讨厌!细数ML五大罪,引发网友大讨论

    诚然在许多工业领域,资金投入一样非常重要,钱总能带来更快更好的进步,但在机器学习领域,问题远不止于此。

    量子位
  • 观点 | 重新思考机器学习:大数据消耗已无必要

    翻译 | AI科技大本营(rgznai100) 参与 | Shawn,焦燕 导读 机器学习炒了这么这么多年,为什么我们还没看到企业有开发出任何这方面应用?本文会...

    AI科技大本营
  • 一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别

    来源:机器之心 作者: Vincent Granville 编译: 机器之心 参与:吴攀 、李亚洲 校对:李君 ...

    数据派THU
  • 如何利用机器学习进行海量数据挖掘

    互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。但特征一多规则就很难制定,即使定下了规则也没法根据...

    CDA数据分析师
  • 机器学习技术的重要性:达观数据亲身实践

    大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈...

    达观数据

扫码关注云+社区

领取腾讯云代金券