Google大数据案例解析

将系统产生的大数据传输,存储,分类等很多是技术型工作,随着大数据技术的发展,通用的解决方案,越来越成熟,也越来越廉价(几乎每两年存储价格降低一倍)。但是对于大数据应用来讲,思维其实是更重要的,只有巧妙的建立模型,也就是建立起相关关系,才能有效发掘大数据的价值。

谷歌一直走在大数据应用的前列,下面就举两个案例,来进行赏析:

第一个就是ReCAPTCHA案例,这个虽然是被谷歌收购的,但是,具有典型的谷歌思维。

为了解决垃圾邮件和网络机器人的问题,冯.安发明了验证码的解决方案。如果只限于此,也就没有特别可以称道的,但是他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他开始寻找能使人的计算能力得到更有效利用的方法。

他想到了一个继任者,恰如其分地将其命名为ReCaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。

为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的:破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了冯·安的公司,并将这一技术用于图书扫描项目,再后来,谷歌街景也开始使用这项技术。

把验证码和OCR需求巧妙结合起来,这展示了思维的威力,实现了ReCaptcha技术提供者和使用者的双赢,技术提供者利用OCR识别获得了自己的受益,使用者不需要任何付费(互联网免费思维),也愿意使用,对于用户其实也没有影响,没有增加额外的工作。上研究生的时候,就研究OCR汉字识别问题,识别率始终是个问题,对于手写就更低了,要花费大量人力来解决,并且,人工识别工作是非常无聊,没有办法来保障质量。再想起12306的验证码,更令人无语了。我们浪费了多少资源?我们有多少资源可用充分来利用?

第二个是拼写检查纠错的案例。

我们都经常使用微软的Word,其中就有拼写检查纠错功能,微软实现这个功能,采用的是传统的软件思维,也就是利用规则和词库来解决,这个需要不断耗费人力进行规则和词库的升级,对于不同的语言,耗费更是巨大。

谷歌解决这个方法,用的相对巧妙,在搜索的时候,当你输入一个错误的词时,会给一个提示,要找的是不是建议的词,如果用户确认后,谷歌就进行记录处理,后面,再经过一些算法处理,经过大量的数据学习,各个拼写检查纠错就越来越好,并且,这个后续维护成本很低,效果越来越好。

其实,谷歌翻译也使用了类似的思路,虽然前期算法,包括大数据处理花费了比较多,后续,基本实现了自动化,系统会越来越强,维护升级成本很低,项目就变成可持续发展。

《大数据思维》中提到大数据三个重要思维:

全量(也就是海量数据),不需要精确(但是最好可以持续),要相关性。

从上面的案例,可以充分得到体现,首先大量数据,无论是验证码,还是拼写检查的需求,都是一个大的应用场景,可以产生大量数据;最重要的是,如何找到相关物(如OCR识别),或者利用已有资源设计出相关物(要找的是不是建议),是关键;最后,数据都是源源不断,不需要100%的精确性,系统可以通过算法进行不断迭代优化。

我们还看到的是,如何利用众包也好,资源互换也好,能够非常低成本的来解决需要耗费大量人力的事,也是系统成功的关键,共享经济具有巨大的威力,一定是未来,独占式的模式不能持久,必定是狭小垂直市场。

充分理解了上述案例,掌握了大数据思维,对于解决我们自身的大数据问题是非常有帮助的,这也是我们建立优秀的大数据应用的核心。

谷歌这么多聪明的人,为什么不能解决让全球的人随时随地访问的需求呢?如果这个解决了,我愿意来购买1000股谷歌股票作为支持。

内容来源:涛哥论道

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2016-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【前沿】人工智能系统的四大趋势与九大挑战,美国Berkeley14位重量级学者(包含机器学习泰斗Jordan)最新观点

【导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenges f...

1.1K6
来自专栏软件成本造价评估

软件项目工作量估算中使用的功能点方法是什么?

简单的说,功能点方法是一种估算软件项目大小的方法,它是从用户视角出发,通过量化系统功能来度量软件的规模,这种度量主要基于系统的逻辑设计。功能点规模度量方法在国...

4016
来自专栏开源优测

大数据测试学习笔记之数据质量

大数据测试学习笔记之数据质量 数据质量定义 先搜索了一把,发现当前对于数据质量的定义没有一个共识的定义,通过阅读一些资料,做了些总结,可以从以下几个方面来定义数...

4818
来自专栏ATYUN订阅号

亚马逊为开发者带来249美元的学习工具:DeepLens深度学习相机

亚马逊的云计算子公司亚马逊网络服务(AWS)终于为美国开发者推出了DeepLens深度学习相机。

1203
来自专栏人工智能

如何充分利用机器学习的书籍和课程

如今,在网上网下,我们有许多机器学习书籍和课程可用来学习,而同时网上又掀起了大学课程和电子书逐渐免费的趋势。太多的优秀资源可以使用也许会让您感觉到要被压倒。而这...

2266
来自专栏SDNLAB

换个角度谈边缘计算:电力供给压力与计算能力占比率不高,它是过度炒作吗?

编者按:边缘计算近年来日趋火热,互联网公司、电信运营商、设备商等众多领域都在讨论边缘计算。

1492
来自专栏大数据文摘

互联网金融,如何用知识图谱识别欺诈行为

4619
来自专栏PPV课数据科学社区

☞【实践】数据可视化技术指南(附加视频)

☞【实践】数据可视化技术指南(附加视频) 转自:36大数据 ? 图为:美国立法程序 大数据是时下热议的话题,伴随着大数据,同样已经激增的数据可视化方法和呈现形式...

4285
来自专栏BestSDK

不出声说话也没用!牛津大学开发出唇语解读智能技术

解读“唇语”一般都是在电视剧里出现的特殊人才所具备的技能,当然读“唇语”也被广泛应用于不便传小纸条的上课聊天以及考试作弊的场景下。不过这项特殊又神秘的技能被牛津...

3036
来自专栏新智元

Michael I. Jordan联合UC伯克利13位重量级学者:下一代人工智能系统的4大趋势和9大研究课题

【新智元导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenge...

42210

扫码关注云+社区

领取腾讯云代金券