深入学习,机器学习,人工智能——所有代表分析的未来的流行词。在这篇文章中,我们将通过一些现实世界的例子来解释什么是机器学习和深度学习。在以后的文章中,我们将探讨垂直用例。这样做的目的不是让你成为一名数据科学家,而是让你更好地理解机器学习能做些什么。
纵观人工智能的历史,这一名词不断被重新定义。AI是一个总括术语(这个想法始于50年代);机器学习是AI的子集,深度学习是ML的子集。
1985年,我在国安局实习时,人工智能是一个非常热门的话题。在美国国家安全局,我甚至参加了麻省理工学院关于专家系统的人工智能视频(VCR)课程。专家系统在规则引擎中捕获专家的知识。规则引擎在金融和医疗等行业有着广泛的应用,最近用于事件处理。但是当数据发生变化时,规则却变得很难更新和维护。机器学习的优势在于从数据中学习,它可以提供数据驱动的概率预测。
根据Ted Dunning的说法,最好使用精确的术语,如机器学习或深度学习,而不是术语“AI”。
根据HBR的Thomas Davenport的说法,分析技术在过去十年中发生了巨大的变化,在商用服务器,流分析和改进的机器学习技术上实现了更强大,更便宜的分布式计算,使公司能够存储和分析更多数据和许多不同类型的数据。
传统上,数据存储在RAID系统中,发送到多核服务器进行处理,然后送回存储,这导致数据传输的瓶颈,并且价格昂贵。通过MapR-XD和MapR-DB等文件和表存储,数据分布在集群中,而MapReduce,Pig和Hive等Hadoop技术将计算任务发送到数据所在的位置。
像Apache Spark这样的技术通过迭代算法加速分布式数据的并行处理,在迭代中缓存数据并使用更轻的线程。
MapR Event Streams是一种用于大规模流式传输事件数据的新型分布式消息传递系统,它与流式处理(如Apache Spark流式传输或Apache Flink)相结合,可加快与机器学习模型并行处理实时事件的速度。
图形处理单元(GPU)加速了多核服务器的并行处理。GPU具有大规模并行架构,由数千个更小,更高效的内核组成,设计用于同时处理多个任务,而CPU由几个针对顺序串行处理优化的内核组成。就潜在性能而言,从Cray-1到具有大量GPU的今天集群的演变大约是地球上曾经是速度最快的计算机的一百万倍,成本只是其中的一小部分。
机器学习使用算法查找数据中的模式,然后使用识别这些模式的模型对新数据进行预测。
一般来说,机器学习可以分为两种类型:有监督的,无监督的,以及两者之间的。监督学习算法使用标记数据,而无监督学习算法在未标记数据中发现模式。半监督学习使用标记和未标记数据的混合。强化学习训练算法以基于反馈最大化奖励。
监督算法使用标记数据,其中输入和目标结果或标签都被提供给算法。
监督学习也称为预测建模或预测分析,因为你构建了一个能够进行预测的模型。预测建模的一些示例是分类和回归。分类基于已知项目的标记示例(例如,已知为欺诈的交易)来识别项目属于哪个类别(例如,交易是否是欺诈欺诈)。逻辑回归预测概率 - 例如,欺诈的概率。线性回归预测数值 - 例如,欺诈数量。
分类的一些例子包括:
· 信用卡欺诈检测(欺诈/非欺诈)。
· 信用卡申请(信用良好/信用不良)。
· 垃圾邮件检测(垃圾邮件/非垃圾邮件)。
· 文本情感分析(快乐/不快乐)。
· 预测病人风险(高危病人/低风险病人)。
· 把肿瘤分类为恶性或非恶性。
逻辑回归(或其他算法)的一些例子包括:
· 鉴于历史上的汽车保险欺诈索赔要求和索赔的特点,如索赔人的年龄、索赔额和事故的严重程度,预测欺诈的可能性。
· 根据患者特征,预测充血性心力衰竭的可能性。
线性回归的一些例子包括:
· 鉴于历史上的汽车保险欺诈索赔要求和索赔的特点,如索赔人的年龄、索赔额和事故的严重程度,预测欺诈金额。
· 鉴于历史上的房地产销售价格和房屋的特点(即平方英尺,卧室数,位置),预测一套房子的价格。
· 给定历史街区犯罪统计,预测犯罪率。
下面显示了其他有监督和无监督的学习算法,我们将不再介绍,但我们将更详细地查看每个算法的一个示例。
分类例子:借记卡欺诈
分类采用具有已知标签和预先特征的一组数据,并学习如何基于该信息标记新记录。功能是你提出的“if”问题。标签是这些问题的答案。
让我们来看一个借记卡欺诈的例子。
· 我们要预测什么?
o 借记卡交易是否欺诈。
o 欺诈是标签(真或假)。
· 你可以用哪些“if”问题或属性进行预测?
o 今天花费的金额>历史平均水平吗?
o 今天在多个国家有交易吗?
o 今天的交易数量>历史平均吗?
o 与过去三个月相比,今天的新商人数量是否很高?
o 今天是否有多个有风险代码的商家购买?
o 与以往使用PIN相比,今天是否有不寻常的签名活动?
o 与过去三个月相比,是否有新的政府采购?
o 与过去三个月相比,今天有外国采购吗?
要构建分类器模型,需要提取最有助于分类的感兴趣的特征。
决策树创建一个基于多个输入特性预测类或标签的模型。决策树的工作原理是评估每个节点包含特征的问题,并根据答案选择到下一个节点的分支。用于预测借记卡欺诈的可能决策树如下所示。特征问题是节点,回答“是”或“否”是树中到子节点的分支。(请注意,真正的树会有更多的节点。)
· 问题1:花费在24小时内的金额是否超过平均水平?
· 问题2:今天是否有多家有风险的商家购买?
o 是,欺诈=90%
o 非,欺诈=50%
决策树很受欢迎,因为它们易于可视化和解释。将算法与集合方法相结合,可以提高模型的精度。一个集合示例是一个随机森林,它结合了多个决策树的随机子集。
无监督学习,有时也称为描述性分析,没有预先提供的标记数据。这些算法发现输入数据的相似性或规律性。无监督学习的一个例子是根据购买数据对相似的客户进行分组。
在聚类中,算法通过分析输入实例之间的相似性将输入分类。一些集群用例包括:
· 搜索结果分组
· 对类似客户进行分组
· 对类似患者进行分组
· 文本分类
· 网络安全异常检测(发现不相似的,来自集群的异常)
K-means算法将观测值分组为K个聚类,其中每个观测值属于具有距其聚类中心最近平均值的聚类。
集群的一个例子是一家公司希望将其客户细分,以便更好地定制产品。客户可以按人口统计和购买历史等特性进行分组。聚类和无监督学习常常与监督学习相结合,以获得更有价值的结果。例如,在该银行客户360用例中,首先根据调查的答案对客户进行分段。然后对客户群体进行分析,并标记客户角色。然后,通过客户ID和账户类型和购买等功能联系起来。最后,应用监督机器学习,并对标记的客户进行测试。
深度学习是多层神经网络的名称,多层神经网络是由输入和输出之间的几个节点“隐藏层”组成的网络。改进的算法、GPU和大规模并行处理(MPP)已经产生了具有数千层的网络。每个节点获取输入数据和权重,并将置信度得分输出到下一层中的节点,直到到达输出层,计算得分的误差。在称为梯度下降的过程内部进行反向传播时,误差将再次通过网络反馈,并调整权重以改进模型。该过程重复数千次,根据其产生的误差调整模型的权重,直到不再能够减少误差为止。
在此过程中,其优点是不需要预先确定特征。但是,这样做的缺点是模型的决策无法解释。因为解释决策很重要,研究人员正在开发新的方法来理解深度学习的黑盒。
深度学习算法有不同的变体,可以与MapR的分布式深度学习快速入门解决方案一起使用,以构建数据驱动的应用程序,如下所示:
用于改进传统算法的深度神经网络。
财务:通过识别更复杂的模式来增强欺诈检测。
制造:基于更深的异常检测,增强缺陷识别。
用于图像的卷积神经网络。
零售:用于衡量流量的视频的店内活动分析。
卫星图像:标记地形和分类对象。
汽车:识别道路和障碍物。
医疗保健:X射线,扫描等的诊断机会
保险:根据照片估算索赔严重程度。
用于测序数据的递归神经网络。
客户满意度:将语音数据转录为文本以进行NLP分析。
社交媒体:社交和产品论坛帖子的实时翻译。
照片字幕:搜索图像档案以获得新的见解。
财务:通过时间序列分析(也是增强的推荐系统)预测行为。
原文标题《Demystifying AI, Machine Learning, and Deep Learning》
作者:Carol McDonald
译者:lemon
不代表云加社区观点,更多详情请查看原文链接
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。