前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据应用技术学习不应做盲人摸象,闭门造车的实验室派

大数据应用技术学习不应做盲人摸象,闭门造车的实验室派

原创
作者头像
西安弈聪软件公司
发布2018-07-26 13:02:02
5480
发布2018-07-26 13:02:02
举报
文章被收录于专栏:西安软件开发西安软件开发

随着科技的高速发展,数据在人类生活和决策中所占的比重越来越大,大数据的兴起只是说明了一种现象,面对如此广度和深度的大数据技术栈和工具集,如何学习和掌握好大数据分析这种技能,犹如盲人摸象,冷暖自知。不过技术的学习和应用也是相通的,条条大路通罗马,关键是要找准切入点,理论与实践结合,有全局观,工程化思维,对复杂系统设计开发与关键技术体系的主要矛盾要有所把握。熟悉大数据基础理论与算法、应用切入、以点带面、举一反三、横向扩展,从而构建完整的大数据知识结构和核心技术能力,这样的学习效果就会好很多。

大数据应用技术
大数据应用技术

在大数据应用实施过程中,由于技术和成本考虑,不可能短时间内解决所有问题,大数据应用本身有其规律和特点,比如分析目标一定是要跟数据规模匹配,分析技术的采用取决于数据结构和数据源条件,数据集成一定要覆盖比较全面的业务背景,关键环节数据不能有缺失等等。大数据学习可以根据应用目标分三个阶段:1)大数据基础设施建设阶段这个阶段的重点是把大数据存起来,管起来,能用起来,同时要考虑大数据平台和原有业务系统的互通联合问题。一句话,做好全局数据集成解决数据孤岛问题!要完成大数据基础设施系统建设开发,需要明确数据采集、存储和分析各层核心组件的选型和使用,搭建稳定的大数据集群,或选择私有云方案的服务集群,与生产系统并线运行,使待分析的历史数据和实时数据得以采集并源源不断流入大数据系统。这个阶段的关键技术学习包括采集爬虫、数据接口、分布式存储、数据预处理ETL、数据集成、数据库和数据仓库管理、云计算和资源调度管理等等内容。2)大数据描述性分析阶段此阶段主要定位于离线或在线对数据进行基本描述统计和探索式可视化分析,对管理起来的大数据能进行海量存储条件下的交互式查询、汇总、统计和可视化,如果建设了BI系统的,还需整合传统BI技术进行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型数据挖掘分析。这个基础分析阶段是对数据集成质量的检验,也是对海量数据条件下的分布式存储管理技术应用稳定性的测试,同时要能替代或集成传统BI的各类报表。这个阶段的关键技术学习包括可视化、探索式交互式分析、多维分析、各类基本报表和图表的查询设计等等。

大数据应用技术
大数据应用技术

3)大数据高级预测分析和生产部署阶段在初步描述分析结果合理,符合预期目标,数据分布式管理和描述型分析稳定成熟的条件下,可结合进一步智能化分析需求,采用如深度学习等适用海量数据处理的机器学习模型,进行高级预测性挖掘分析。并通过逐步迭代优化挖掘模型和数据质量,形成稳定可靠和性能可扩展的智能预测模型,并在企业相关业务服务中进行分析结果的决策支持,进行验证、部署、评估和反馈。这个阶段的关键技术包括机器学习建模、决策支持、可视化、模型部署和运维等。在上述几个阶段的技术学习过程中,需要注意几个关键问题:一是重视可视化和业务决策,大数据分析结果是为决策服务,而大数据决策的表现形式,可视化技术的优劣起决定性作用;要从整个大数据技术栈来考虑技术选型和技术路线的确定;模型的选择和评估至关重要,在课堂和实验室中,多数模型的评估是静态的,少有考虑其运行速度、实时性及增量处理,因此多使用复杂的臃肿模型,其特征变量往往及其复杂。

大数据应用技术
大数据应用技术

因此大数据只有和特定领域的应用结合起来才能产生价值,数据科学还是数据工程是大数据学习要明确的关键问题,要大数据应用落地,如果把数据科学成果转化为数据工程进行落地应用,难度很大,这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程,从业人员自身也是需要审视思考的。大数据如何走出实验室和工程化落地,一是不能闭门造车,模型收敛了就想当然万事大吉了;二是要走出实验室充分与业界实际决策问题对接;三是关联关系和因果关系都不能少,不能描述因果关系的模型无助于解决现实问题;四是注重模型的迭代和产品化,持续升级和优化,解决新数据增量学习和模型动态调整的问题。所以大数据学习一定要清楚我是在做数据科学还是数据工程,各需要哪些方面的技术能力,现在处于哪一个阶段等,不然为了技术而技术,是难以学好和用好大数据的。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档