首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

智能时代——读书笔记(八)

智能革命面临的技术挑战

在这个章节里,我们主要来讨论大数据及人工智能相关的技术都面临着哪些方面的挑战。这一期因为讲的内容都与技术相关,内容比较多,希望大家能多花几分钟时间耐心读完。

其实智能革命的概念已经提出来60多年了,而技术的发展,一般都会有一个明显的拐点,而智能革命的技术拐点也就是在这近几年里,其核心原因主要是在过去的10年里,全球的数据在呈现爆发式增长。那么这些数据都来源于哪些方面呢?

大数据的来源之一就是电脑本身。使用电的设备,基本上都有一个内置处理器,能够接收传感器的数据或者控制传感器,我们个人的PC电脑和手机就是主要产生数据的场所之一。

大数据的来源之二就是传感器,比如前面提到的无源射频识别芯片(RFID)就是一种收集数据的工具,还有我们现在随处可见的摄像头也是类似。

大数据的来源之三是那些过去已经存在的非数字化形式存储的信息,包括语音、图片、设计图纸、视频、档案、图书和医学影像等,这些信息虽然过去都以各种方式存储着,但是因为通过长期的积累,其数据量是巨大的。

数据的存储技术

从大数据的这几个来源,我们可以想到的是大数据兴起的必要条件之一,便是数据的存储技术。由摩尔定律我们知道,各种存储器的容量在成倍增长,而价格却迅速下降,这样就导致以前不得不经常需要定期删除的数据,现在可以留存下来。而数据存储量一旦暴增,数据的读写速度也必须跟上脚步。

从数据的存储介质来看,我们发现从早期的磁带、CD光盘、机械硬盘,再到现在的固态硬盘(SSD),无论是容量、还是存储速度都是大幅提高,这样也就使得应用大数据的时机开始成熟。

数据的传输技术

终端既然能产生这么大的数据量了,那接下来就解决的就是数据的传输问题,如何从数据的采集端将数据传输到存储设备上呢?这就需要数据的传输技术有所突破了。

从数据传输技术的发展来看,我们发现从10年前的GSM(速度不超过100KB/s)到今天的4G时代LTE技术(2MB~10MB/s),已经增长了几十到上百倍。如今WIFI在主要城市的覆盖率越来越高,蓝牙也成为了许多设备的标配,所有的这些传输技术的发展,才使得今天的数据可以迅速的传到服务器上,如今5G时代也会很快到来了。

数据的处理技术

数据被传到服务器上后,能否用的好,那就要看数据的处理能力了。这几年里,处理器的性能虽然在不断的提升,但是依然无法很好的面对这样快速增长的数据量。所以CPU从1核、双核、四核……到现在的最新一代的服务器,几十核的CPU配置都有,然后还不够,我们又继续引入并行计算的概念。

所谓并行计算,就是将一个大的计算任务,分到很多台便宜的服务器上去执行。这样对于单一维度的数据分析并不算难事,但是应对多维度的大数据时,并行化依然存在着许多困难。这些技术问题也是在近几年才慢慢被Google等一些大公司所突破,所以目前的大数据应用还算是刚刚起步,机器智能其实还是处于一种初级阶段。

数据收集这个看似简单的难题

传统的数据统计,一般都是先有一个明确的目的,然后再开始收集数据。在大数据时代,却常常没有这样一个预先设定的目标,而是先把能够收集到的数据先收集起来,而正是因为这样没有前提和目标,才使得大数据分析的结果往往能给到我们很多意外的惊喜。

然而在做数据收集时,常常会面临各种困境,比如用户对电视节目的收视率数据一般是掌握在机顶盒生产厂商或电视运营商,而这些数据我们一般人都拿不到。所以这个时候大家又想到通过绕一个弯,利用数据的相关性来解决该问题。

数据收集时,还要强调的一点是数据是在无意间产生的,不能提前就有一个心理预期,否则很有可能会影响数据分析的结果。比如像问卷调查、民意调查、选举等,再比如我们的很多政策是官方顶层设计的结果,那么预判中国经济的结构,要想找到支持官方观点的数据,当然就很容易了(你懂的)。但是我们都明白,这样收集到的数据根本就不具备代表性。

数据存储时,其实也会面临很多压力,所以第一方面考虑同样的信息如何让他占用的空间小,比如去除冗余数据、图像的存储由点阵变成向量。第二方面考虑数据的安全,早期的GFS对于数据备份这方面,一般考虑每个文件在同一个数据中心,必须要存3个拷贝,然后同时存放在地里位置上较远距离的3个数据中心,这样一来,一个文件相当于存了9个拷贝。这样的做法显然不经济,所以后来改进成了3+1份,前3份内容相同,最后一份是为了方便校验和恢复数据。

数据存储,除了考虑如何节约存储空间外,还要考虑数据如何存储才能更方便、高效的被使用。目前来说,对数据建索引这个手段是经常被用到的,也可以很好的应对随机访问。建索引对于网页的数据来说并不难,但是对于如果想从视频中找出某一个画面,就比非常复杂了,这也正是当下面临的一个比较复杂的技术挑战。

大数据还面临的一个挑战便是如何让数据的格式标准化,以便数据能更好的共享和互相关联。早期Google推出过一种Protocol Buffer的数据格式,目前也已经开源供大家使用。总而言之,可见这些挑战不是简单地加机器、增加CPU就能处理的。

另外,我们还听说过一种叫并行计算的概念,在这里我就不细说其原理了。理论上来说,一个大的计算任务通过拆分成子任务、然后利用多台服务器并行处理,最终把结果汇总起来,从而可以达到计算效率的提升。然而这种并行计算的方式经过实践后,效果不是特别好,我们发现不像理想中的那样有很多子任务可以并行进行计算,也并不是增加几台机器就可以明显提升效率,有时候机器越多反而效率更低。所以,要解决数据计算速度的问题,还是要从系统上,改变设计和算法,而这往往对于普通公司来说,难度太大了。

机器智能的关键

前面说了这么多,其实都是在为数据挖掘这个步骤在做准备。由于大数据的原始数据常常是没有固定格式的,所以要做的第一步,就是对数据进行过滤和整理。

数据过滤,核心就是要对数据进行降噪处理,数据的质量好坏,一般用信噪比来度量某一个数据的质量。特别是那些质量不高的数据,在使用数据之前,对数据进行降噪处理非常关键。有了比较可靠的数据以后,接下来就说说机器学习的原理。

机器学习,无一例外都要经历一个不断迭代、不断进步的过程。事先要定出一个学习目标,这些算法就会不断的优化模型,让他越来越接近真实情况。机器算法训练的次数越多,最终数据模型效果就会越好。通常来说,这些训练,不是几台机器能完成的工作,Google的AlphaGo虽然在下棋时,只用了几十台机器,但是在训练时用到了上万台机器。

Google大脑能够有所突破,是因为他们找到了一种方法,可以将一个很大的模型,上百万的参数,分布到了不同服务器上去训练,另外也提升了许多训练算法的效率,能训练处一些大型的数学模型。以上这些工作,其实一般的公司不可能有技术力量去研发这样难度的机器学习工具,因此,最好的解决办法,就是找一些专门做机器学习的公司,为自己企业提供服务。

数据安全技术

数据安全技术一般包含两个层。一个是指包含用户的数据不被损坏、不丢失,另外就是保护用户的数据不被盗走、非法利用。由于我们很多时候,在方便性和安全性方面,会优先考虑方便性,所以往往很多时候,系统出现被黑客攻击后,才突然具有防范意识。

对于数据的安全防范,除了制定一些规范与制度,让大家有安全意识以外,还要想一些比较有效的技术手段,去有效的防止数据被偷或监控这些数据的安全性。目前大数据本身就可以做到对数据的监控与防范,因为一般来说,一家企业他的业务流程经常是固定的,被授权的操作员的习惯,机器也是很容易学习的,而黑客由于不了解公司业务,操作数据流程肯定与正常的操作员流程不一致,这样就可以一定程度的防止一些黑客攻击进行的异常操作了。

数据安全的重要性

如果我问大家,为什么要保护个人数据隐私?大家肯定能想到千千万万的理由,实际上,目前全世界很多人都是把数据隐私挂在嘴边而已。举个简单的例子,如果要牺牲隐私,换取便利的服务,你愿意吗?实际上我们大家经常都选择了愿意。现在的社交网络及移动互联网APP都在不断的测试用户对暴露隐私的承受底线,你点外卖要获取你位置信息、你用微信要获取的你手机通讯录信息、你上传照片要获取你的相册或摄像头权限等等,如果你不授权,很有可能你就不能享受这些APP所带来的服务。

无论怎么样,我们要知道,这些数据一旦被挖掘,可能影响到我们以后生活的各个方面,比如有些人以后在网上买东西,经常会买到假货,有些人一出门旅游,发现机票涨价了,比平时贵好多,有些人以后去买保险,会被各种理由直接拒绝。而我以上说的这些,也许已经正在发生着,但是可能很多人都还没有意识到吧。

隐私数据保护的方法

其实,说到保护隐私的方法,今天来看还很无奈,从法律的角度来看其实是解决不了什么问题的。从技术的手段来看,目前只能对一些数据进行预处理,使得人们能处理这些数据,但是却读不懂数据的内容,这样也只是一定程度的有效。还有一种保护隐私的技术叫“双向监视”,简单都说就是当使用者看计算机的时候,计算机也在看着你。如果有人在窥探别人隐私的时候,他的行为本身也暴露了,那么就会或多或少约束自己。也许保护隐私最好的办法,就是拿侵犯隐私的人必须以自己的隐私来交换吧。

今天,大数据和机器智能已经给我们带来了诸多好处,但同时在数据的处理、数据的安全等方面,还存在着不少挑战。可想而知,今后任何一个能够提供某些大数据关键技术的企业或个人,在未来的智能革命时代,都有大展宏图的机会。

好了,本期内容就是这么多,希望能够帮助到您,感谢您能读到最后,如果觉得内容不错,请您点赞转发给予鼓励,咱们下期再见。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190129G056J200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券