机器学习为何重要|通过计算一个句子的音节总数证明给你看

大数据文摘编译作品,转载具体要求见文末

翻译校对| 黄文畅 姜范波 Dr. Guo

对信息时代的大多数人来说,如果想通过电脑编程解决一些难题,你只有两种方法:查找式和启发式。

现在,便利的机器学习算法的出现提供了新的有力选择,我们可以用它来解决一些以前无法解决的问题。

我们用这个看似简单实则困难的例子,计算一个句子里面音节的总数来说明机器学习的强大。

◆ ◆ ◆

计算一个句子里面音节的总数

解决这个难题的一个方法是从现有的列表里去寻找答案。似乎我们可以通过简单地查字典,找出每一个词的音节数,然后把所有的词加起来就得到了总数。

这个非常直接的方法在实践中很快就失效了。

因为实际的句子中包含出乎意料之多的没有收录在普通字典里的单词,如外来词,姓名,拼写错误,流行文化词,俚语等。字典通常不包含一个单词的所有变异体,也不包含所有单词的音节数。如果一个句子中即使只有一个单词我们找不到,使用这种查找的办法就解决不了问题。因此,这种方法非常局限,很多情况下不能使用。

作为替代,多数软件使用启发式的或者称作“聪明的算法”。这种方法汇总一套用某种编程语言写下来的算法,或一系列的指令让计算机去遵从。只要你对问题了解得足够好,能够写下来这些算法,启发式算法则能非常有力地解决问题并能得到很好的结果。不幸的是,它们很脆弱——计算机只会照着指令执行。

如果你的问题有许多特例,你必须不断地在算法里面增加特殊的逻辑,当问题变得越来越微妙时,比如检测自然语言(examing nature langguage)——启发式就会失败,而且超过一定阈值,则没有办法再改进。超过某个点,启发式在一堆相互矛盾的特例中纠结成一团乱麻,顾此而失彼。

◆ ◆ ◆

而机器学习会采用一个完全不同的方法

程序员不再需要写算法,只要选择一个机器学习的模型应用于训练数据就可以了。基于反馈机制,模型会进行自调节来得到理想的结果。

一个好的模型可以学习到数据中潜在的规则,即便这些规则是复杂的,例如我们自己写程序时,因为没有完全理解问题而写出的不够明确的规则,但只要反馈机制是扎实可靠的,模型就可以对自身进行动态的调整,并可学习在这个系统建立最初培训中没有学到的数据中的变化。如果能够建立一个比较好地查出实际句子中音节数的机器学习模型,并且定期的给它反馈,我们就可以期望随着时间的推移,它变得越来越来好– 即使有从不同来源的新词加入。

启发式和机器学习有相反的特征。

一个启发式可以很快地提供非常好的结果,但是当数据量增加、或一些之前没有料到的特例出现时,它的质量就会变得不可靠。想要提高启发式则需要不断地修改它的代码,而且会逐渐变得复杂和昂贵。一旦错过了某些时机,想要改良启发式也会变得几乎不可能。相比之下,虽然一个机器学习模型在最初的阶段需要更多的功夫来创造和训练,但是之后它就可以通过学习来不断提高它自己。这种提高是通过从更多的数据中学习得来的,而不是通过重新设计算法。最终,这个机器学习模型可以通过学习处理一些连我们都无法清晰表述的微小的规则。这是一个从根本上与我们所了解的查找或启发式方法都不同的功能,它帮我们创造出的软件解决方案是之前通过查找和启发法所无法达到的。

机器学习本身并不是一个新的方法,但它的使用已经开始大爆发。这种爆发是通过多种因素综合作用驱使的,如提高了的训练方法、逐渐增长的电脑的计算能力、巨大型“大数据”数据集中启发式显露出的缺陷、以及机器学习工具包的可用性的不断改善。

机器学习的真正价值在于它为我们开辟了一个全新的技术能力,可以很好地解决基于查找或是启发式无法处理的棘手问题。我们现在可以重新审视以前觉得遥不可及的挑战,并期待着有更多的新一代产品能够应用这个强大的新方法。

素材来源:https://medium.com/generally-intelligent/machine-learning-why-it-s-important-482cf7162d50#.dqz67je8h

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-08-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

Nvidia用合成数据集训练机器人拾取物体,胜过用真实数据训练的机器人

Nvidia的研究人员已经找到了一种方法,可以使用在虚拟环境中创建的数据来训练机器人在现实世界中拾取物体。用合成数据训练的卷积神经网络系统可以使用Baxter机...

952
来自专栏养码场

最适合练手30个的机器学习开源项目,赶紧收藏!

“ 场主,这篇文章炒鸡棒!内涵许多实战项目,很适合机器学习刚入门的小伙伴磨练来提升自己的技术水平。这些优质的开源项目都来自于GitHub上,排名十分靠前,反正很...

971
来自专栏人人都是极客

AI 芯片和传统芯片的区别

比如,自动驾驶需要识别道路行人红绿灯等状况,但是如果是当前的CPU去算,那么估计车翻到河里了还没发现前方是河,这是速度慢,时间就是生命。如果用GPU,的确速度要...

1284
来自专栏AI科技评论

业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品...

3616
来自专栏机器之心

业界 | 英伟达官方解读:Volta Tensor Core GPU实现AI性能新里程碑

1815
来自专栏鸿的学习笔记

Upvote Dynamics on the Quora Network(下)

在本节中,我们将看看答案在作者的相关受众中如何动态传播。在我们这样做之前,我们应该退一步,并反思我们如何期望网络距离的行为。具体来说,这个指标是否会是一件好事?...

631
来自专栏华章科技

机器学习工作职位需要的7项技能

机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法...

782
来自专栏大数据挖掘DT机器学习

当推荐算法开源包多如牛毛,为什么我们还要专门的推荐算法工程师

作为一个推荐系统业余爱好者,在机器学习领域的鄙视链中,我感觉一直地位不高,时常被搞NLP CV语音等高科技技术的朋友鄙视。 最近甚至被人问,推荐算法开源包多如牛...

3989
来自专栏机器之心

从标题到写作流程:写好一篇论文的十条基本原则

3136
来自专栏AI研习社

分布式机器学习时代即将来临?谷歌推出“Federated Learning”

传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里。谷歌等云服务巨头还建设了规模庞大的云计算基础设施,来对数据进行处理。现在,为利用移动设备上的...

36911

扫码关注云+社区

领取腾讯云代金券