首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据计算面临的挑战与应对之策

尽管大数据是社会各界都高度关注的话题,但时下大数据从底层的处理系统到高层的分析手段都存在许多问题,也面临一系列挑战。这其中有大数据自身的特征导致的,也有当前大数据分析模型与方法引起的,还有大数据处理系统所隐含的。本文对这些问题与挑战进行梳理。

1.数据复杂性带来的挑战

大数据的涌现使人们处理计算问题时获得了前所未有的大规模样本,但同时也不得不面对更加复杂的数据对象,如前所述,其典型的特性是类型和模式多样、关联关系繁杂、质量良莠不齐。大数据内在的复杂性(包括类型的复杂、结构的复杂和模式的复杂)使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战,导致了传统全量数据计算模式下时空维度上计算复杂度的激增,传统的数据分析与挖掘任务如检索、主题发现、语义和情感分析等变得异常困难。然而目前,人们对大数据复杂性的内在机理及其背后的物理意义缺乏理解,对大数据的分布与协作关联等规律认识不足,对大数据的复杂性和计算复杂性的内在联系缺乏深刻理解,加上缺少面向领域的大数据处理知识,极大地制约了人们对大数据高效计算模型和方法的设计能力。

因此,如何形式化或定量化地描述大数据复杂性的本质特征及其外在度量指标,进而研究数据复杂性的内在机理是个根本问题。通过对大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,简化大数据的表征,获取更好的知识抽象,指导大数据计算模型和算法的设计。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和时空计算复杂度之间的内在联系,通过对数据复杂性内在机理的建模和解析,阐明大数据按需约简、降低复杂度的原理与机制,使其成为大数据计算的理论基石。

2.计算复杂性带来的挑战

大数据多源异构、规模巨大、快速多变等特性使得传统的机器学习、信息检索、数据挖掘等计算方法不能有效支持大数据的处理、分析和计算。特别地,大数据计算不能像小样本数据集那样依赖于对全局数据的统计分析和迭代计算,需要突破传统计算对数据的独立同分布和采样充分性的假设。在求解大数据的问题时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。因此,研究面向大数据的新型高效计算范式,改变人们对数据计算的本质看法,提供处理和分析大数据的基本方法,支持价值驱动的特定领域应用,是大数据计算的核心问题。而大数据样本量充分,内在关联关系密切而复杂,价值密度分布极不均衡,这些特征对研究大数据的可计算性及建立新型计算范式提供了机遇,同时也提出了挑战。

因此,需要着眼于大数据的全生命周期,基于大数据复杂性的基本特征及其量化指标,研究大数据下以数据为中心的计算模式,突破传统的数据围绕机器式计算,构建以数据为中心的推送式计算模式,探索弱CAP约束的系统架构模型及其代数计算理论,研究分布化、流式计算算法,形成通信、存储、计算融合优化的大数据计算框架;研究适应大数据的非确定性算法理论,突破传统统计学习中的独立同分布假设;也需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法,研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论基础。

3.系统复杂性带来的挑战

针对不同数据类型与应用的大数据处理系统是支持大数据科学研究的基础平台。对于规模巨大、结构复杂、价值稀疏的大数据,其处理亦面临计算复杂度高、任务周期长、实时性要求强等难题。大数据及其处理的这些难点不仅对大数据处理系统的系统架构、计算框架、处理方法提出了新的挑战,更对大数据处理系统的运行效率及单位能耗提出了苛刻要求,要求大数据处理系统必须具有高效能的特点。对于以高效能为目标的大数据处理系统的系统架构设计、计算框架设计、处理方法设计和测试基准设计研究,其基础是大数据处理系统的效能评价与优化问题研究。这些问题的解决可奠定大数据处理系统设计、实现、测试与优化的基本准则,是构建能效优化的分布式存储和处理的硬件及软件系统架构的重要依据和基础,因此是大数据分析处理所必须解决的关键问题。

大数据处理系统的效能评价与优化问题具有极大的研究挑战性,其解决不但要求理清大数据的复杂性、可计算性与系统处理效率、能耗间的关系,还要综合度量系统中如系统吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素,更涉及实际负载情况及资源分散重复情况的考虑。因此,为了解决系统复杂性带来的挑战,人们需要结合大数据的价值稀疏性和访问弱局部性的特点,针对能效优化的大数据分布存储和处理的系统架构,以大数据感知、存储与计算融合为大数据的计算准则,在性能评价体系、分布式系统架构、流式数据计算框架、在线数据处理方法等方面展开基础性研究,并对作为重要验证工具的基准测试程序及系统性能预测方法进行研究,通过设计、实现与验证的迭代完善,最终实现大数据计算系统的数据获取高吞吐、数据存储低能耗和数据计算高效率。

虽然大数据技术现在仍面临着一些问题和挑战,但是相信技术是不断地在完善和进步的,这些问题和挑战也终会在不久的将来得到解决。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181213G0ROJF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券