赵淦森博士的讲座分享整理No.32

我是小蕉。

先稍微介绍一下赵老师哈。

赵淦(gan)森,计算机安全博士,毕业于英国肯特大学。在英国期间曾任英国Nexor公司的兼职高级安全技术顾问、甲骨文英国(Oracle UK)终身高级工程师。现任华南师范大学计算机学院教授、广东省服务计算工程中心副主任。

本篇博客主要整理赵老师于2017年7月20日的讲座分享,主题是《重新认识人工智能、云与大数据》,觉得很有价值,所以记录下来并分享给大家。

第一部分聊聊云计算

什么是云计算?云计算主要解决什么问题?云计算其实主要解决下面三个问题。

第一个就是大资源管理。

非常多非常多的物理资源,要如何把它们管理起来?如果说只有十几台或者几十台机器,那么一个运维团队可能可以日以继夜非常努力去保证他们的稳定性。但是现在一般的集群少则几千台,甚至google的资源有几百万台,需要怎么去管理呢?

而且每台机器都是很不可靠,资源很小很小很局限的。同一个软件要分发到这么多机器,要怎么提高效率?这么多机器的资源如何集合,如何维护,都是一个很大的需要去解决的问题。

一般来说如何管理呢?

首先要做的两件事情就是,资源与能力分离以及标准化。

拿移动硬盘距离,硬盘里的一部电影就是资源,资源要怎么提供给我们呢?只能把硬盘直接拿到我们自己的电脑上,然后再进行拷贝。在这里资源和能力是强绑定的,完全不可分的,这就不太可能把资源管理起来了,所以第一件事就是要把资源和能力给区分开,现在的方式是通过网络和资源管理软件来实施。

说到网络,有很重要的东西就是SDN网络,传统意义中一个子网可能最多就支持1024个IP,那么如果几个集群有上万上百万的节点,要如何把它们连接起来,SDN是一个还不错的解决方案。

标准化又是怎么一回事呢?这么多规格的资源,怎么统一管理,最好的一种方案就是进行标准化。每个机器都进行标准化,提供一模一样的服务方式,这样子在管理的时候,就能很容易进行资源和能力复制了。

第二个问题是大能力构建。

有了这么多资源,要如何把它们应用起来,传统的处理方式都是单机单节点模式,那么遇到一些非常大规模的计算问题的时候,就会显得非常乏力,特别是现在互联网这么多数据,已经达到了ZB级别,而且还在不断爆炸。

如何在可以接受的时间范围去处理这这么大量数据,已经成了一个很大的问题。需要我们去设计一些资源,一些系统来进行这么大数据量处理的能力的构建。

现在比较主流的方式就是分布式计算。比较典型的有两种,一种是负载均衡,一种是MapReduce。负载均衡可以解决机器不可用的稳定性问题以及服务的横向拓展问题,MapReduce可以进行计算能力的分布式。有了这两个框架,可以实现绝大多数的大能力构建。

第三个问题是大能力交付。

资源管理起来了,大计算能力也构建起来了,如何把这些能力交付给目标用户,也是一个很大的问题。光有这么大能力,只能管理员自己使用,这不是云想解决的问题。云最重要的作用就是把这么大的能力,无差别或者有差别地,提供给需要这些能力的用户。

怎么解决多租户问题,思路是这样的。首先每个租户的资源都是非独占的,不使用的时候要释放资源。做到了每个租户非独占之后,才能做到资源的统筹管理。所有的资源都是虚拟的,进行池化,所以就可以一次性提供超过一台机器极限的很大资源。

上面就是云计算解决的问题。

云计算中有一个很重要很重要的解决方案就是虚拟化。目前比较主流的技术就是虚拟机和Docker技术了。虚拟机主要作用就是是在宿主OS上面虚拟出自己的OS,无论在什么物理环境上,都可以虚拟出需要的OS。而Docker则是使用宿主主机和主机的OS,使用Docker引擎进行资源归一化,然后在上面虚拟出很多的app。

虚拟化有什么好处呢?

1、资源分割。

一台主机可以初始化N个虚拟机,提供给很多的用户使用。

2、资源隔离。

不同虚拟机和应用之间,是完全隔离的,一个用户把环境搞崩了不会影响到其他的用户。

3、同质化。

经过了虚拟化,所有的资源对于用户和云平台来说都是同质的,无差别的可以提供同等服务的机器。

4、运维自动化。

同质化了之后,运维自动化也开始变得可能起来,一个更新可以通过工具,批量地发布到很多很多的机器上。

5、交付自动化。

所有资源都进行虚拟化了,那么就可以使用固定的程序进行资源和能力交付,这能极大地较少运营和销售人员的时间。

第二部分聊聊大数据。

很多人都以为大数据就是很多很多的数据,几百个G几百个T,就大数据了吗。

马云的一句话说的其实很好,大数据,大是指大计算,数据是指云数据。使用大数据思维的一些方式,借助大数据工具去做一些分析,才能算大数据。

那么大数据思维和传统的科学思维有什么差别呢?

传统科学基本都是基于实验的,首先定义一个正确的过程,经过这个正确的过程,就能准确地推导出正确的结论。一切都是要保证过程的正确性。

比如说,要研究一个问题,研究什么情况下需要打伞。传统的想法可能是,看一看天识别一下下雨概率,加很多传感器测量一下目前在身上的雨的大小,装一个盆子在头上测量一下雨量,然后还要区分一下现在在什么地方是不是需要打伞。

如果用大数据的思维呢。大数据挖掘出一个结论,旁边的人都打伞你就打伞。

在使用大数据的方法之前,要有一个认识,要认可过程的多样性。要用上帝视角去观察事物,过程未知也未必不可,只要保证结果在绝大多数情况下是准确的就可以了。

在使用大数据的过程要注意什么呢。最最最重要的,就是耀进行大数据治理,数据质量要有保证,不然就只能是垃圾进垃圾出,Garbage In Garbage Out(GIGO)。保证数据可用,好用,有用。

第三部分聊聊人工智能。

人工智能这个概念,是约翰·麦卡锡(John McCarthy|1956在达特矛斯会议提出的。大概分为下面好几个派别吧,还有很多其他派别。

符号主义->以规则为主导,总结很多的逻辑推导。

联结主义->模仿人脑神经元的思考方式。

贝叶斯主义->主要基于概率图模型。

行为主义->进行仿照自然界的原理,比如遗传,模拟退火等等。


讲座分享到这里就基本结束啦,总得来说赵老师的分享大局观非常非常好,对于很多问题也是能把这些关键点一个一个拆开,虽然没有涉及到很多具体的技术,但对于这些东西也算是有一个比较好比较清晰的理解吧。

那么对于我们普通的个人,要怎么做去适应这个时代变革呢?

只有一个目标:把它们利用起来。

用各种云来解决我们的服务器问题,用大量的算法和论文来充实自己的理论基础,用大量的开源框架解决我们的应用落地问题,就够了。

慢慢来,潜心学习,未来还是我们的。

原文发布于微信公众号 - 一名叫大蕉的程序员(DaBananaTalk)

原文发表时间:2017-07-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程坑太多

程序出现bug是必然出现的情况还是程序猿水平有限导致的?

PS:最最大的bug是,明明程序运行的好好的,但项目失败了。你叫程序员怎么查?我只是个搬砖的,大厦为什么会倒,我哪知道啊~

370
来自专栏ThoughtWorks

业务分析实践:10个常见问题 | TW洞见

今日洞见 本文作者:ThoughtWorks-亢江妹。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体、网站或个人...

3559
来自专栏腾讯技术工程官方号的专栏

大型DCI网络智能运营实践

? 9月14-15日,GOPS全球运维大会上海站圆满举行,为期两天的运维盛宴,为各位运维人带来了相互交流和学习的绝佳平台,来自腾讯技术工程事业群(TEG)网络...

1442
来自专栏智能计算时代

75个每个人都应该知道的大数据术语

在第一篇文章中介绍了以下术语:算法,分析,描述性分析,规定分析,预测分析,批处理,Cassandra,云计算,集群计算,黑暗数据,数据湖,数据挖掘,数据科学家,...

4594
来自专栏FreeBuf

关GPS也没用:手机电池电量会暴露你的行踪,定位准确率高达90%

电池电量也会泄露手机位置信息?是的,这并不是天方夜谭。安全研究人员已经实现了一种方法,通过智能手机电池消耗精确获得的你的位置信息。 或许有的朋友会说,只要我关...

19610
来自专栏小狼的世界

[每天五分钟,备战架构师-11]数据库系统

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。

1432
来自专栏Albert陈凯

大数据人工智能词汇索引S大数据人工智能词汇索引S

大数据人工智能词汇索引S S ---- 流处理(Stream processing):流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计...

3737
来自专栏新智元

机器人,给我来一瓶82年的农夫山泉

1392
来自专栏Java后端技术栈

简单聊一下推荐系统的基本要素!

其中,前三者是和机器学习没有任何关系的,但却是推荐效果最好的三种方式。一般说来,这部分内容应该占到总的推荐内容的80%左右,另外20%则是对长尾内容的个性化推荐...

1553
来自专栏Crossin的编程教室

爆款游戏《贪吃蛇大作战》的 Python 实现

感觉游戏审核新政实施后,国内手游市场略冷清,是不是各家的新游戏都在排队等审核。媒体们除了之前竞相追捧《Pokemon Go》热闹了一把,似乎也听不到什么声音了。...

4067

扫码关注云+社区

领取腾讯云代金券