大数据算法笔记(一)

未来十年将是一个“大数据”引领智慧科技的时代。更多的传感设备、移动终端接入到网络、由此产生的数据及增长速度将更多、更快。技术进展也将改变企业运营的方方面面。数据是企业未来竞争优势的基础和重要资源。大数据在商务管理应用中的作用体现在三个方面。

跨界整合:整合企业内外部资源与不同领域的专业化人才

深入探究:具备探究更多未知的科学能力

生态参与:利益相关方共同参与的生态建设

什么是大数据?

至今没有公认的定义

定义1:(Kusnetzky,Dan. What is "Big Data?")

所涉及的数据规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

定义2:(维克托·迈尔-舍恩伯格、肯尼斯·库克耶 “大数据时代”)

不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方案

定义3:(“大数据”,Big Data 研究机构Gartner)

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

“大”有多大?

英语:

1Byte=8 bit

1KB=1024Bytes

1Mb=1024Kb=1048576 Bytes

1GB=1024MB=1048576MB

以此类推

TB、PB、EB、ZB、YB、BB、NB、DB

汉语:

仟 1000

万 10e4

亿 10e8

兆 10e12

京 10e16

垓 10e20

秭 10e24

穰 10e28

沟 10e32

涧 10e36

正 10e40

载 10e44

梵文(太多了,不敲了,可怕的还在后面)

大数据的特点

数据量(Volume)、速度(Velocity)、多样性复杂性(Variety)、高度分析的新价值(Value)

大数据的应用

预测、推荐、商业情报分析、科学研究

大数据问题求解计算的过程

大数据算法定义

在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。

大数据算法可以不是:精确算法、内存算法、串行算法、仅在电子计算机上运行的算法。

大数据算法不仅是:云计算、MapReduce 、大数据分析和挖掘算法

大数据算法的难度

访问全部数据时间过长

读取部分数据(时间亚线性算法)

数据难于放入内存计算

将数据存储到磁盘上(外存算法)

仅基于少量数据进行计算(空间亚线性算法)

单个计算机难以保存全部数据,计算需要整体数据

并行处理(并行算法)

计算机计算能力不足或知识不足

人来帮忙(众包算法)

大数据算法

精确算法设计方法

并行算法

近似算法

随机算法

在线算法/数据流算法

外存算法

面向新型体系结构的算法

现代优化算法

大数据的算法分析

时间空间复杂性

IO复杂性

结果质量(近似比、competitive ratio)

通讯复杂性

我在冬天里盛开

那是因为

春天你没有来

间歇性更新

或分享给更多的人

公众号:颇有微词(poyouweici)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180927G0I89Y00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券