首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

读书笔记:人工智能产品经理(四)

第四章 人工智能产品体系

本章将描述搭建一个人工智能产品需要怎样的基础架构,其次剖析每个组件的含义,以及对整个体系起到的作用和扮演的角色。最后分别展开每个组件的内容,列举一些代表性或常见的技术作为知识普及。4.1 人工智能产品实现逻辑人工智能产品的目标是模拟和延伸人的感知(识别)、理解、推理、决策、学习、交流、移动和操作物体的能力。纵观历史,人工智能产品的实现逻辑都遵循从感知到认知,从识别到理解、决策的逻辑过程。感知(识别)是人工智能实现的第一步,也是当前人工智能产品在落地实现过程中表现最好的领域。机器学习特别是深度学习在感知(语音和图像识别)上已经取得了历史性的突破,而理解和决策在当前还需要通过机器学习和人类指导相结合的方式才能实现。一个最简化的弱人工智能产品实现流程可以被概括为:通过海量数据的训练和学习,从中识别规律和经验,当新的数据进入时,机器可以在某些方面具备接近人的感知、理解、推理的能力。接下来,将对一个通用人工智能产品从角色分工、处理过程、功能价值三个不同的角度去描述。

整个体系中,有四类重要角色:

基础设施提供者,为整个产品体系提供了计算能力,产品与外界沟通的重要工具,并通过基础平台实现支撑。数据提供者,是体系的数据来源,为后续的数据处理提供充足的“养料”。数据处理者,代表着各种人工智能技术和服务提供商,主要负责智能信息表示与形成,智能推理、智能决策及智能执行与输出等工作。系统协调者,负责系统的集成,需求的定义,资源的协调、解决方案的封装,以及除研发以外一切可以保障人工智能产品顺利运行和在行业落地所需的工作。

接下来,我们从数据流转和处理的角度分析整个人工智能产品体系。

首先,数据提供者利用各种数据采集手段采集原始数据。数据处理者完成对数据的加工(包括清洗、转换、归一化、拆分、采样等处理方式)。接下来,为了实现智能推理和决策,数据处理者需要进行模型训练,按照不同的产品/功能目标使用分类、推荐、回归、聚类算法训练模型。数据处理过程是人工智能产品实现模拟人类行为能力的核心,目标是从数据中获取“经验”形成模型,并对新问题进行识别与预测。最后,将新数据输入到训练好的模型中,并输出结果,推断的结果支撑了产品对外表现出的智能执行与输出,表现形式包括:运动、显示、发生、交互、合成等。以上从数据提供者到数据处理者的流程传递、完成了“数据—信息—知识—智慧”的过程。随着数据的采集,整个过程是动态循环进行的,即实现了“训练—推断—再训练“的过程。在整个人工智能产品的开发和迭代过程中,需要系统协调者(包括产品经理)完成系统的集成、需求的定义、资源的协调、解决方案的封装以及一切可以保障人工智能产品顺利运行和在行业落地所需的工作。当产品上线后,需要持续投入资源进行产品运维管理,主要包括日常的运行维护,故障处理,变更升级,最终保证可以稳定运行。另外,人工智能产品在设计和开发的过程中,四种角色需要考虑安全,隐私、伦理这三大影响因素,这三者约束了人工智能产品的边界,抑制了产品的野蛮生长。下面,就基于这个逻辑框架介绍每个组成部分。4.2 基数设施4.2.1 传感器数据作为人工智能的养料,其质量决定了最终人工智能模型和落地效果的成败。在某些信息化程度较低的传统行业中,生产或业务场景中的大量数据,因为缺乏有效的数据采集工作导致数据缺失,而由于数据的“质”和“量”是限制人工智能训练出好模型的主要因素,数据问题成为人工智能产品的“天花板”,大量传感器的引入是弥补这个缺口的重要手段,不仅在采集阶段需要传感器的引入,而且自模型优化阶段也需要大量的数据反馈作为调优依据。主流的传感器可分为如下几种:

生物传感器

光敏传感器

声音传感器

化学传感器

目前传感器主要被应用于四类人工智能产品,分别是:可穿戴设备,高级辅助驾驶系统,健康监测、工业控制。作为人工智能产品经理,应该了解传感器的最佳时间和工程应用情况,并掌握技术发展趋势的预判能力。产品经理还需要了解每种传感器的造价,以及每种环境下的精度和稳定性。4.2.2 芯片随着深度学习在各种领域和场景中的应用价值得到了广泛的认可,其过程中关键的两个环节训练和推断由于需要强大的计算能力作为前提,故从某种意义上来说芯片已经成为人工智能领域建立竞争壁垒的关键武器。

按照不同用途可分为三个主要类型:

第一个类型是用在训练环节的芯片——模型训练。这类型芯片要求强大的浮点计算能力。这个领域的芯片技术当前也是日新月异,产品经理应对市场的变化保持敏感并选取性价比最高的方案。云端推断。目前主流人工智能应用需要通过云端提供服务,将采集到的数据传输到云端服务器去推断任务,然后再将数据返回终端,即将推断环节放在云端而非终端设备上。云端推断通常可以根据需求配置足够强大的硬件资源,适合运行一些复杂的、允许有一定延时的算法模型。设备端推断。设备端主要用来进行一些简单的、实时性要求很高的推断,但存在算法模型升级和运维成本较高的缺点。

按照芯片定制化程度,又被划分为通用芯片、半定制化芯片(FPGA芯片)、全定制化芯片(ASIC)。

通用芯片不仅造价相对较贵,而且不是为某种场景定制开发的,因此运算效率相对较低,如CPU、GPU、TPU.FPGA在生产出来后仍然可以进行自由升级和修改,FPGA本质上是用硬件实现软件算法,因此在实现复杂算法方面对企业有一定的技术门槛要求。在支持各种深度学习的计算时,对于大量的矩阵计算,GPU优于FPGA,但是当处理小计算量、大批次的计算时,FPGA性能优于GPU、另外,FPGA有低延迟的特点,非常适合在推断环节支撑海量的用户实施计算并发请求。ASIC是一种为专门目的而设计的集成电路。一旦定板开模就不能再变,还有芯片设计周期较长的缺点。但也有许多好处,如运算效率高,单个芯片造价低、芯片面积小,功耗低的优点。4.2.3 基础平台大数据技术大数据是人工智能的前提,模型的训练离不开大量的数据。大数据的目标只有一个,就是从海量数据中挖掘价值。互联网、移动互联网技术、物联网技术为我们创造了大量的数据,而实际上这些数据中的绝大多数并没有发挥出任何价值。在过去,产品经理设计产品的逻辑是花大量的时间和资源寻找确定的因果关系,再从固定的因果关系出发去设计产品,解决用户需求。这样的思维模式下显然无须利用数据进行分析,因为没有任何人知道两个完全不相关的数据之间的联系,也就不会将他们放到一起分析。大数据爆炸性的增长驱动人类去建立各种看似不相干的数据之间的关联需求,人类渴望从海量的数据中创造意义、找到关联关系而服务于人类。与传统的算法相比,机器学习完全利用输入的数据进行自学习,构建相应的复杂模型。这一算法特点决定了需要有一项技术可以实现对不同类型的海量数据进行存储、处理,而这恰好是大数据技术与人工智能的交叉点。云计算技术一个完整的人工智能工程在数据的存储、网络、计算方面,对想在这个领域创立或发展的公司提出了极高的要求。例如构建一个最基本的机器学习通用平台对于任何公司来说都绝非易事。而云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,只需投入很少的管理工作。人工智能可以利用云计算技术实现资源层的弹性伸缩并以很低的价格供用户数使用。云计算是无数企业实现部署和使用人工智能技术或产品的最经济方式。4.3 数据采集不同人工智能产品的数据采集过程完全不同,由于数据类型多,数据量大,需采用各种工具和技术辅助才能实现采集过程。4.3.1 数据来源数据采集阶段首先考虑的重点是“数据从哪来”。除了社交网络,搜索引擎这些互联网数据采集渠道,万物互联时代,对线下场景数据的采集随着各类传感器技术的发展也成为兵家必争之地。人工智能的模型训练过程对行业数据深度要求较高,即使是互联网巨头也无法垄断各细分行业的数据,这也给做垂直细分领域的公司机会,常见数据获取方式有以下三种:

直接购买行业数据,甚至有些数据可以免费获得:从开放数据集网站(包括科研、算法竞赛、政府开发数据、个人组织公开数据等)、运营商、行业数据分析公司直接购买数据,

自行采集,通过自身行业积累直接获取用户数据,也可以通过爬虫技术采集合法的互联网数据。自行采集的好处是按需定制,可以自定义采集的指标、字段和频率等。爬虫可以将结构化、非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。同时也支持图片、视频、音频等文件的采集以及有针对性的数据或文件的爬取,尤其对需要从指定网站中获取数据、作为训练集来训练的模型非常有帮助。爬虫技术由于具备很强的实效特征,也被普遍应用在网络舆情监测,客户购买倾向、市场趋势、竞争对手分析、行业垂直搜索等领域中。

第三方合作,整合行业资源,与友商或上下游的合作伙伴交换或购买数据。

4.3.2 数据质量人工智能对数据除了”量“的要求以为,还有”质“的要求。如果数据的“干净”程度不够,人工智能仍然无法从数据中获取价值。数据是否”干净“可以按照以下四个标准衡量:

第一是关联度。人工智能产品中的算法模型在训练过程中,对领域数据的额关联度要求极高。关联度是评价数据的首要标准,因为如果关联程度不够高,其他所有指标都毫无意义。

第二是实效性。

第三是范围,数据范围代表来数据的完整度。数据采集过程中如果有中间任何一段的数据无法采集,都会导致最终的模型效果很差。

最后就是可信性。对于很多类型的人工智能产品来说,数据的可信性是获取用户信任的关键因素。

大量的证据表明,人工智能工程化时间过程中采集、转移、确认和组织数据的时间占据整个工程市场的70%~80%。模型选取、训练的时常反而只占到了相对较小的一部分。数据质量,对于任何一个有志成为数据驱动型的公司都非常重要。企业需要将数据治理作为常态,变成公司文化的一部分。4.4 数据处理数据处理是人工智能体系通过对原材料进行加工,并赋予机器类似于人的技能的关键过程。由于数据挖掘、数据预处理、特征工程、各种机器学习框架等领域的快速发展,人类发现,可以通过一种从数据反推规则的方法进行建模。逻辑可被抽象为:我们现在有数据,但是没有方程式和确定的计算规则,机器要通过数据来给出规则,当新的数据输入后,模型会预测对应的结果。这个过程实际上就是人工智能数据处理的一种典型逻辑过程。4.5 机器“大脑”处理过程:理解、推理和决策理解、推理和决策是人脑的日常工作,理解人工智能在这些方面的实现逻辑和能力范围,不仅有助于产品经理在产品设计工作中把握需求边界,也会对人工智能产品的本质有更深刻的理解。接下来将从识别、理解和推理、决策者三个不同的”智能“层次具体讨论一下当前人工智能可以实现的程度及背后的逻辑。

识别。识别从本质上属于感知范畴,在计算机科学领域,模式识别是机器学习的一个分支,他侧重于识别数据中的模式和规律,在某些情况下他被认为与机器学习几乎是同义词。目前模式识别在计算机视觉、自然语言处理、生物特征识别等领域已经展现出超越人类的表现。

理解和推理。识别更强调人对于环境感知的分类、打标签、召回数据的能力。而理解和推理更强调明确区分、深层次地解释和归纳总结数据的能力。理解又被称作“思维”“意念”,是一种对人、客体、环境和信息进行处理的心理过程。它从本质上决定了我们如何看待和处理我们周围的人和环境的关系。人工智能目前在整个环节还不能独立运行,仍然需要通过和人类指导相结合的方式才能实现。

做决策。做决策是基于对外界客体、事物、环境的理解和判断来决定采取什么样的行动。其本质上是一个认知过程,但是侧重点在于寻找那些可供选择的方案,以及采取什么样的行动。在当前阶段,人工智能大多数以弱人工智能辅助人类做决定,而不是以代替人类独立做决策的形式被应用到各种场景中。

4.6 资源配置统筹的关键环节:系统协调

构建一个完整的人工智能产品体系通常需要多方协作,包括基础设施提供者,信息提供者,信息处理者等在内的各种公司或公司内部的各种业务部门,这种复杂的协同工作,通常需要公司内部组成一个整体协调小组(至少包括产品经理和系统架构师在内),一起承担系统的协调工作。系统协调者需要在人工智能的不同阶段:需求定义、设计开发、系统优化、运行保障、售后支持、监控和审计发挥资源协调和统筹作用。由于人工智能是多学科交叉领域,一方面需要系统协调者具备多学科的知识背景,有助于统筹分工;另外一方面,各领域政策、法规不完全相同,需要系统协调者提供明确的边界要求,以保证产品严格按照合理、合法的方式正常运行。人工智能产品体系最常见的发展规律是:一开始以项目交付解决单个场景的具体需求为主,这个阶段更看重个性化需求。当项目的技术和产品需求基本验证完毕后,通过提供标准的、通用的、可配置的功能使产品逐渐走向千人一面,即项目产品化。接下来阶段就是服务化,即通过对开放和输出各种服务能力,逐渐与终端用户具体的业务解耦,统一数据中心和算法平台,并对外提供各种基础功能;最终实现平台化,人工智能产品平台化的发展目标,是帮助用户实现根据自身需求完成各种功能模块的在线快速封装、灵活配置,并在节约成本、支持快速迭代的同时,为企业探索更多商业模式的可能性。在产品体系发展的不同阶段,人工智能产品经理把控着从项目到产品化、服务化,最终实现平台化的整个规划和工程落地节奏。在整个过程中需要考虑企业发展速度、市场规模、技术实现瓶颈及业务本身的业务特殊性等多方面因素,这就需要人工智能产品经理具备成本意识,市场敏锐度,前瞻性和大局观等综合素质。4.7 不可逾越的红线:安全、隐私、伦理和道德随着全球有关人工智能建设管理标准的陆续出台,产品经理应持续关注国际权威组织发布的各种有关安全、隐私、伦理道德方面的人工智能建设和管理标准。4.7.1 安全人工智能具有超越人的智力的潜力,因此我们不能以过去的技术发展的经验对待人工智能。尽管当前人工智能不具备爱或恨的情感,也无法自发地表现出仁慈或恶意,但仍有两种最可能导致人工智能安全隐患的情况。

第一种,被人为地设定或创造为危害安全的产品。例如自主武器。随着人工智能的智力水平和自主性的提升,当人工智能可以完全控制自动驾驶汽车、无人飞机、心脏起搏器、自动交易系统或电网时,我们必须保证该系统完全遵循我们的指令,否则后果将不堪设想。

第二种,尽管一开始被设定或创造为有益于社会的产品,但为了实现目标,人工智能在有些时候会不择手段,带来破坏性的效果。仅设定正确的目标对于人工智能产品经理来说事远远不够的,忽视设定过程中各种安全边界和要求会带来各种安全隐患,因此产品经理还需要考虑到实现目标的手段。

对于人工智能产品的设计,应在设计之初就考虑人工智能的安全问题。尽管当前的弱人工智能在综合能力方面还不如一个人类的孩子,但并不意味着安全问题可以被我们忽略。当然,人工智能安全问题并不是产品经理一个人的责任,包括政府、产品用户在内,都应当在制定人工智能安全方案、规则方面贡献自己的力量。4.7.2 隐私随着各种传感器技术的发展,数据采集过程变得越来月越隐蔽和难以理解,因此人工智能在服务于人类的过程中,很容易触犯人们的隐私和数据保护的基本权利。各国政府在近些年纷纷出台了相关的法律法规来保护人民的权益。对于人工智能产品经理来说,为了降低产品和公司的法律风险,应在产品设计之初就严格审视产品在数据保护方面的问题。对数据保护影响进行评估至少包括以下四项:评估所有产品流程中涉及用户权利的风险。评估产品在设计或运行过程的系统描述,包括产品设计或运行的目的以及它所维护的合理权益。基于产品设计或运行目的,评估该过程是否有必要的。针对识别出的风险,给出有针对性的风险管理措施。关于企业可以采取的数据隐私保护措施,可以从三个方面进行。尽管有些措施可能在当前技术上难实现,但也可以作为企业未来的研究方向。

减少对训练数据量的需求。尽管机器学习过程需要大量的训练数据,但是随着技术的发展,有些技术已经可以帮助实现这样的目标了。

生成对抗网络可以通过一套独特的学习方法大幅减少训练深度算法所需的训练数据。联合学习的方法训练数据,该技术可以实现将部分训练过程放到用户的手机端,使用手机上的处理器进行数据训练,从而取代传统流程中需要将所有数据先上传到云端再进行训练的方式。迁移学习。迁移学习是一种把从一个场景中学到的知识(模型)举一反三迁移到类似场景中的方法。迁移学习适合从小数据中学习知识,尤其是当没有足够的数据作为训练资源时,在此之前训练好的模型基础上加上小数据并迁移到一个不同但类似的场景中去。

在不减少数据的基础上保护隐私。

差分隐私技术。当在数据库检索某条信息时,在搜索结果中加入满足某种分布的“噪音”,使查询结果随机化。同步加密技术。同步加密是一种加密形式,允许在密文上进行计算,生成加密结果,解密后的结果与对明文进行同样的运算得到的结果一致。这项技术令人们可以在加密的数据中进行检索、比较等操作并得出正确的结果,而整个处理过程中无须对数据进行解密。其意义在于,真正从根本上解决将数据及操作权限委托给第三方时的数据隐私保护问题。这对于那些使用云计算作为产品基础架构的公司尤为重要。提高算法可解释性,避免黑盒子事件的发生。很多关于人工智能侵犯隐私的事故,都是由于人工智能算法的可解释性差导致的,因此提升模型输出结果的可解释性是一种有效提升用户对于产品信任度的方法。产品经理应从产品设计之初就关注产品可能带来的隐私侵犯问题,并利用以上提到的一些手段,在一定程度上降低用户数据隐私被侵犯的可能性。尤其当产品需要被推广到国外时,应关注当地对于数据隐私权、人权的规定和制度,严格参照这些规定和制度去进行产品设计。4.7.3 伦理和道德技术的快速发展已经让人工智能产品逐渐实现了自主学习能力、预测人类行为的能力。这些“超能力”一旦被一些负面的伦理和道德思想左右,其产生的社会危害将是巨大的。在激烈的商业竞争中,企业很可能由于一味追求人工智能产品和服务的商业化,而忽视了伦理和道德风险。产品经理在设计人工智能产品的时候应重点关注以下三种人工智能的特殊性所带来的复杂伦理问题。

人工智能算法的“可解释性差”、“不透明性”,使得一旦出现伦理道德事故无法评判。

当人工智能产品的目标是替代人履行一定社会职能的时候,产品的“不可预见性”有可能会导致伦理道德争议。

另外一个备受争议的是人工智能伦理问题是关于人工智能的道德地位。

我们已经进入了一个新纪元,判断一款产品的好坏除了从经济效益角度考虑,在人工智能时代还需要关注产品的伦理和道德。产品经理作为人工智能产品的顶层设计者,不仅需要在技术领域进行修炼,而且需要在道德层面强化对自身的要求,严格按照社会伦理能够接受的范围设计产品。人工智能产品时一个典型的“双刃剑”,产品经理们需要承担前所未有的社会责任。4.8 运维管理评价人工智能产品的运维能力有如下评判标准:系统能否在第一时间发现异常,当异常被发现后能否找出异常发生的原因,从原因是否能定位到具体的问题,这些具体问题是否能够很快被修复或自动修复,未来再出现这样的问题之前能否可以提前预警。人工智能体系的运维能力和效果主要取决于体系化或平台化程度是否足够高。人工智能的平台化程度可以从如下几个方面进行衡量:模块化、插件化、配置可视化、系统化监控、自动化部署等。系统运维技术已经发展到了今天的AIOps阶段,AIOps是一种结合了机器学习和大数据技术的运维管理软件体系。相比于传统运维体系,它可以提供人类交互、主动决策、理解执行等能力。目前AIOps尚处于落地实践的初期。AiOps会实现常规运维工作的智能化操作包括:运行状况监控、问题定位、业务需求梳理、需求变更、操作指导、数据应用、模块分配、参数设置等。

关于读书笔记,我会将读书笔记分成2个阶段,第一阶段主要是书中知识的摘抄,必要时会调整顺序,这一阶段的主要目的是总结书中的精华。第二阶段我会开始一些拓展,加入一些自己的思考。简单来说,就是先把书读薄,再把书读厚。

书籍购买地址:

https://item.jd.com/12376742.html

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180805G1399G00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券