专栏首页PPV课数据科学社区黑箱难题仍在阻碍深度学习的普及

黑箱难题仍在阻碍深度学习的普及

  1. “机器学习基本就是线性数学,很好解释,”数据公司Teradata首席技术官斯蒂芬·布罗布斯特(Stephen Brobst)在Teradata合作伙伴大会的一场小组讨论上说。“然而,一旦涉及到多层神经网络,问题就成了非线性数学。不同变量之间的关系就纠缠不清了。”
  2. 作为GitHub上的开源软件,LIME框架有望逐层剥开神经网络的外衣。“LIME是一种高效的工具,赋予机器学习从业人员以信任感,可以加入到他们的工具组合中,”里贝罗、辛格和格斯特林教授在2016年发表于电脑资讯网站奥莱利(O’Reilly)的文章中写道。

原文翻译:

当前,深度学习扛起了人工智能的大旗,让我们得以一窥智能机器在将来的能耐。但深度学习有个不小的问题:没人知道它是如何运作的。

我们并不是对深度学习一无所知。作为当今神经网络的核心,机器学习算法已经发展了几十年,它定义完善,文献丰富。在银行和保险业等受到严格监管的行业,这些算法已经普及多年,不曾引发重大问题。

“机器学习基本就是线性数学,很好解释,”数据公司Teradata首席技术官斯蒂芬·布罗布斯特(Stephen Brobst)在Teradata合作伙伴大会的一场小组讨论上说。“然而,一旦涉及到多层神经网络,问题就成了非线性数学。不同变量之间的关系就纠缠不清了。”

神经网络的明晰性问题植根于它的基本架构,这种架构的复杂性是与生俱来的。通过将很多隐藏层逐层堆叠起来,我们其实创造出了几乎无限量的路径,供数据在网络中训练时经过。继而,通过让数据一遍又一遍地经过这些路径,将每次循环中变量的权重交由机器自己决定,我们发现可以制造出更好的机器,提供比传统机器学习方法更加优质的答案。

这是对人脑的一种粗糙演绎——这里要强调的是“粗糙”,因为我们仍未充分掌握人脑的运作原理——但我们知道人脑能起作用,也知道神经网络能起作用,虽然我们对它们的运作原理不甚了了。从某种层面上讲,神经网络的不透明性不是什么缺陷,而是一种特色。

复杂性正是深度学习起效的秘方。

这也是一个不小的研究领域。金融服务等行业都对神经网络垂涎三尺,但目前都被禁止使用,因为他们无法向监管机构充分解释神经网络的运作原理。“在将机器学习投入风险评估等领域的过程中,这是最大的一个障碍,这些领域受到严格的监管,”布罗布斯特说。“若只是欺诈检测和推荐引擎,你还可以侥幸过关。但监管严格的领域就不行了。”

这足以使DataRobot公司在这些领域的客户回避深度学习框架,如Tensorflow等,尽管DataRobot会帮助实现其自动化使用。“有时候,这些模型会因无法验证而被拒之门外,”DataRobot首席运营官克里斯·德瓦尼(Chris Devaney)说。“你不太容易为它辩护。即便不是黑箱,它也表现得像个黑箱,因为你无法记录神经网络算法深处发生的一切。”

TensorFlow可以针对大规模数据集作出快速预测,但DataRobot的顾客不愿触及。目前,DataRobot正在与Immuta合作,旨在寻找并削减机器学习中的偏差,这方面的工作终将有所成效,但任重道远。“对于一些受到严格监管的客户,如果必须在政府机构面前捍卫这种模型,他们就会放弃考虑,”他说。

研究公司ForresterResearch副总裁、首席分析师麦克·格列蒂里(Mike Gualtieri)说,有些公司一边使用深度学习,一边还抱有某种程度的怀疑。“连使用这些模型的公司都不信任它们,”他在近期的合作伙伴会议上说。

他说,开始使用深度学习的公司有办法对付这种不确定性,包括加入人类干预,用规则加以限定,他说。

“模型可以作出预测——这个预测始终都是一个概率——但如果预测不准呢?”他说。“你可以用规则加以限定。比如告诉它‘这是欺诈’,模型可能会说:‘这不是欺诈’。你也可以设定有利于人类的规则,比如说,‘我才不管模型怎么说——在我看来,这就是欺诈。”

在增加神经网络的透明度方面,人们已经做了一些工作。其中之一被称为“局部可理解的与模型无关的解释技术”(Model-Agnostic Explanations;下简称LIME)框架,由华盛顿大学计算机科学教授马可·图里奥·里贝罗(Marco Tulio Ribeiro)和他的同事萨米尔·辛格(Sameer Singh)及卡洛斯·格斯特林(Carlos Guestrin)共同提出。

LIME框架的设计旨在提高可理解性,使各类不透明算法生成的预测更易于解释。这包括传统的机器学习技术,比如随机森林与支持向量机(SVM),以及当今日益流行的神经网络技术。

作为GitHub上的开源软件,LIME框架有望逐层剥开神经网络的外衣。“LIME是一种高效的工具,赋予机器学习从业人员以信任感,可以加入到他们的工具组合中,”里贝罗、辛格和格斯特林教授在2016年发表于电脑资讯网站奥莱利(O’Reilly)的文章中写道。

然而,在得到业界的信赖之前,LIME还有很多工作要做。Teradata的布罗布斯特说。“以上提到的LIME框架,我们还没有完成呢,”他说,“这是一个活跃的研究领域……但我称之为‘毕业生代码’。其用例非常有限。专门用例需要专门定制。”

来源:车品觉

原文:https://www.datanami.com/2017/10/27/dealing-deep-learnings-big-black-box-problem/

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • AI时代就业指南:普通程序员转行大数据十问十答

    随着大数据的爆发,中国IT业内环境也将面临新一轮的洗牌,不仅是企业,更是从业人员转型可遇而不可求的机遇。如果将IT人士统一比作一条船上的海员,大数据就是最大的浪...

    小莹莹
  • 学习攻略 | 机器学习和深度学习技能树、面试宝典

    人工智能的浪潮正在席卷全球,这些得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习...

    小莹莹
  • 神经网络和深度学习简史(全)

    深度学习掀起海啸 如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,2015年似乎才是这场海啸全力冲击自然语言处理(NLP)会议的一年。——Dr. Chr...

    小莹莹
  • 黑箱难题阻碍了深度学习的普及与发展

    当前,深度学习扛起了人工智能的大旗,让我们了解到了智能机器的能力有多大,但是有个问题就是:没有人知道它内部究竟是怎么运作的。

    人工智能的秘密
  • 开工了!三位大咖给你指路:未来 3~5 年内,哪个方向的机器学习人才最紧缺?

    十一长假结束,收心归来,重新投入工作。如何能克服假期综合症呢?如何快速收心?今天营长就携三位大咖来为你打打鸡血,指引指引未来的路。他们将从自身的工作经历和学习经...

    AI科技大本营
  • 想知道怎么学人工智能嘛?都在这里!

    1、声学模型 2、Deep Neural Networks 3、Hidden Markov Model等

    云飞
  • Github标星1k+,懂点Python就能读懂的机器学习全流程笔记

    学完Python基础,研究机器学习,听说只需要调用scikit-learn库就可以了?

    大数据文摘
  • 【Science】CMU机器学习系主任:八个关键标准判别深度学习任务成功与否

    来源:science 作者:张乾 【新智元导读】AlphaGo战胜人类、机器人写作、人脸识别……越来越多的人工智能设备正在进入人们的生活,并从事流水化的工作。有...

    新智元
  • 【干货】AI 实践者需要掌握的10大深度学习方法:反向传播、迁移学习、梯度下降……

    来源:towardsdatascience.com 编译:马文 文强 【新智元导读】本文总结了10个强大的深度学习方法,包括反向传播、随机梯度下降、学习率衰减...

    新智元
  • python内置函数3-delattr(

    Help on built-in function delattr in module __builtin__:

    py3study

扫码关注云+社区

领取腾讯云代金券