首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程

扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程

作者头像
AI研习社
发布2018-03-29 16:22:46
1.5K0
发布2018-03-29 16:22:46
举报
文章被收录于专栏:AI研习社AI研习社

「 唯物」按:以下文章来自扎克伯格的笔记"Building Jarvis",由雷锋网编译。

2016 年我给自己制定了一个挑战:打造一个像钢铁侠里 Jarvis 那样的家庭 AI 助手。

我的目的是了解人工智能发展的现状。虽然人工智能已经比人们能察觉到的要先进得多,但是依然还有很长的路要走。通过完成这些挑战,我不仅熟悉了 Facebook 的工程师们使用的内部技术,而且还对智能家居有了全面的了解。

在这一年里,我打造了一个可以通过手机和电脑进行对话的 AI 系统。它能够控制我家里的灯光、温度、电器、音乐和安防系统,而且这个 AI 还能了解我的品味和习惯,可以学习新的词汇和概念,甚至可以逗我的女儿 Max 开心。Jarvis 是由 Python、PHP 和 Objective C 编写的,运用了包括自然语言处理、语音识别、面部识别以及强化学习在内的人工智能技术。

在本文中,我将会解释我创建的 Jarvis 到底是什么,以及我从中学到了什么。

开始:把家变成“互联网”

从某些方面来说,这个挑战比我预想的要容易。实际上,我给自己制定的跑步计划(2016 年跑 365 公里)累计花费的时间比这还更多。不过,将我家里所有的系统全部连接起来,并让系统之间互相通信,却比我预想的要难得多。

在可以构建 AI 之前,我必须首先编写代码将使用不同语言和协议的系统连接起来。我们的电灯、恒温器和门使用的是 Crestron 系统,音乐流媒体 Spotify 搭配的是 Sonos 音箱,还有一台三星电视机,以及为 Max 准备的 Nest Cam 摄像头,当然,我的工作室连接的是 Facebook 的系统。为了能够通过我的电脑发布诸如开灯、播放歌曲之类的指令,我不得不对其中一些系统的 API 进行逆向开发。

此外,大多数的电器甚至都不能连接到互联网。虽然通过支持连接到互联网、可远程控制的电源开关能够控制其中的一些电器,但是这还远远不够。比如,如果你希望烤面包机能在接通电源的时候自动开始烤面包,但你很难找到能够让你在断电的情况下将面包按下去的烤面包机。最终,我最终找到了一个 1950 年代的古董烤面包机,然后把它插在了智能插座上。同样的,要想连接 Beast(扎克伯格的宠物狗)的自动投食器,则需要涉及到硬件改造工作。

对于 Jarvis 这样的助手来说,要想能够帮助更多的人控制家里的一切,我们需要将更多的设备连接起来。而业界也需要开发通用的 API 和标准,让设备与设备之间能相互通信。

自然语言

当我写完能够让我的电脑控制我家的代码之后,下一步就是让我和电脑之间的沟通变得像日常对话那样自然。这里的过程分为两步:首先实现通过文本信息来对话,然后增加将语音转录成文本的功能。

从寻找关键词开始,比如通过“卧室”、“灯”、“开”这几个关键字,它可以知道我是在告诉它把卧室的灯打开。很快,我就发现它需要理解同义词,“family room”和“living room”在我们家里指的是同一个房间,这就需要建立一种能教它学习新的词汇和概念的方法。

理解语境对任何 AI 来说都非常重要。例如,当我告诉它打开我办公室里的空调时,这和 Priscilla 说同样的话的意思完全不同。这造成了一些混乱。比如,当你在没有指定房间的情况下让它把灯调暗一点或者播放一首歌的时候,如果它不知道你在哪个房间,那么很可能打开 Max 房间里的播放器,然后在我们希望她能打个小盹的时候把她吵醒。

音乐是一个更有趣也更复杂的自然语言领域。对于一个识别关键字的系统来说,有太多的艺术家、歌曲、专辑,因此你可以问的东西也非常宽泛。电灯只能关闭或打开,然而当你说“play XX(播放 XX 歌曲)”时,即使细微的差别也可能意味很多不同的意思。比如,“play someone like you(播放歌曲 someone like you)”,“play someone like Adele(播放和 Adele 风格相似的歌手的歌曲)”,“play some Adele(播放Adele 的歌)”,这些听起来很相似,但其实是完全不同的指令。第一个指令是播放一首特定的歌曲,第二个是推荐一位歌手,第三个则是创建一个 Adele 最好听的歌曲播放列表。不过,通过一个有反馈的系统,AI 可以学习到这些差异。

一个 AI 系统对语境的了解越多,就能越好地处理开放式问题。我经常只对 Jarvis 说“play me some music(播放音乐)”,它会查看我过去的听歌习惯,大部分情况下它播放的都是我想听的歌。如果它播的歌不符合当时的气氛,我可以直接告诉它,比如,“这不是舒缓的,播放一些舒缓的音乐”,它就会学习到那首歌的分类,并立即做出调整。而且它也知道是我在跟它说话,还是 Priscilla(扎克伯格的妻子)在跟它说话,这样它就可以根据我们的口味推荐不同的歌曲。相比非常具体的指令,我发现我们更常使用开放式的命令。就我所知,目前还没有哪个商业化的产品在做这个,这应该是一个巨大的机会。

视觉和面部识别

人类三分之一的大脑都负责视觉,而 AI 在理解图像和视频方面也有很多难题。这些难题包括追踪(比如 Max 在婴儿床中移动是不是说明她醒了?),对象识别(例如房间里的是 Beast 还是一块毯子(注:Beast 是一条长得很像地毯的宠物狗)),以及面部识别(例如谁在门口?)。

面部识别是对象识别中一个特别难的问题,因为大部分人的长相是很相似的,相比之下,区分任意两个不同的物体,比如一个三明治和一座房子,就简单得多。但是 Facebook 在面部识别方面的技术能力很强,它能够很轻易地识别你照片库中的朋友。当你的朋友站在你的门前的时候,通过面部识别,AI 系统就能决定是否让他进来。

为了做到这一点,我在门口装了好几个摄像头,确保各个角度都能够捕获图像。AI系统目前还不能识别后脑勺,因此多装几个摄像头可以确保我们可以看到那个人的脸。我设置了一个简单的服务器,可以持续检查摄像头的传回的图像,并执行以下两个程序:

  • 首先,通过面部检测,来查看是否有人出现在摄像头的视野之中,如果它发现人脸出现在画面之中,就会执行面部识别程序来确定这个人是谁。
  • 一旦确定这个人是谁,就会检查一个列表来确定他是不是我正在等的人。如果是,就会让他进来并通知我,客人已经到了。

这种类型的视觉 AI 系统在很多地方都非常有用:比如知道 Max 什么时候醒,这样就可以开始播放音乐或者普通话课程;知道我们在哪个房间里,这样就可以在不提供位置的情况下,正确地执行没有上下文的类似开灯这样的指令。和 AI 其他的方面一样,当把视觉提供的信息与其他能力结合起来时就能发挥最大的功效。比如知道哪些是你的朋友,以及如何在他们到你家的时候给他们开门。当 AI 系统拥有的信息量越多,它就会变得越聪明。

Messenger Bot

虽然我在电脑上编写 Jarvis,但为了让它更有用,我希望不管在任何地方都能和它对话。这意味着我必须通过我的手机,而不是放在家里的某个设备来和它进行通信。

我开始建立一个 Messenger Bo t来和 Jarvis 对话,这比开发一个单独的 App 要容易地多。Messenger 为开发自动程序提供了一个简易的框架,它可以自动帮你完成很多事情,比如可以跨平台(iOS 和 Android)工作,支持文字、图像和语音内容,推送通知,管理不同人的身份和权限等等。

我可以通过 Messenger Bot 发送任何的文本信息,发送的文本会被立即传送到 Jarvis 服务器上并被处理。我也可以发送语音片段,服务器会将语音准换成文本,然后执行指令。如果在我不在家的时候有人到访,Jarvis 会给我发送一张图片,然后告诉我是谁来了。

有一点我没想到的是,虽然我既可以通过语音也可以通过文字来和 Jarvis 对话,但是我使用文字的几率比我预想的多得多。大多数情况下,打字不会干扰到我身边的人。如果我做的事涉及所有人,比如为大家播放音乐,那么我会选择语音,但是大多数时候用打字更合适。同样的,当 Jarvis 和我沟通的时候,我更希望收到文本信息而不是语音。因为声音有时候会突然打扰到你,而文本则让你可以在想看的时候再看。就算是我对着 Jarvis 发布语音指令,但是如过我正在使用手机,我会更喜欢它通过文本信息来回应。

这种选择文字而不是语音交流方式的偏好,其实跟 Messenger 和 WhatsApp 上文字消息比语音消息更收欢迎这一现象是吻合的。这表明,未来的 AI 产品不能只专注语音交互,私人消息界面也应该是标配。如果你想让 AI 能够通过文本沟通,那么选用像 Messenger 这样的平台比你从零开始开发一个 App 要容易的多。我一直以来都对 AI 机器人持乐观态度,当我开发了 Jarvis 之后,这种交互的体验让我更相信智能家庭的未来应该是像Jarvis这样的。

声音和语音识别

尽管我认为文本在与 AI 沟通方面比人类意识到的更加重要,但是语音也仍将占据非常重要的地位。语音最大的好处是它的速度。你不需要掏出你的手机,打开 App,然后开始打字,你需要做的仅仅是说话。

为了能够让 Jarvis 能够拥有语音识别功能,我需要为 Jarvis 建一个能在后台采集语音信息的的 App。虽然 Messenger Bot 能够做很多事,但是要实现语音交互对它来说还是比较困难的。我设计的 Jarvis 专用 App 能够让 Jarvis 在我把手机放在桌上的时候,听我说话。我可以在各个房间里都放上手机,这样我就可以在每个房间都可以和 Jarvis 对话了。虽然这和亚马逊的 Echo 很相似,但是根据我的经验,当我不在家的时候会经常用手机和 Jarvis 对话。因此把手机当作主要的交互入口比家庭设备更可靠。我已经开发了 iOS 版的 Jarvis App,下一步计划开发安卓版的 App。从 2012 年起我就没有开发过 iOS 的 App 了,在这次的开发过程中,Facebook 为开发 App 和语音识别提供的工具链让我印象非常深刻。

虽然语音识别系统最近已经有了很大的进步,但是目前还没有哪一个 AI 系统在理解会话语言方面做的足够好。语音识别依赖于听懂你的话并预测你将要说什么,因此相比非结构化语言,结构化的语言要容易理解的多。

语音识别系统,或者更广泛的机器学习系统,都有其限制,它们往往更适用于特定的问题。比如理解人和机器的对话与理解人和人之间对话是不同的。当你用来自谷歌的人机对话数据来训练机器学习系统,那么这个机器学习系统在理解 Facebook 上人与人之间对话的表现将会相对较差。训练一个能够只需要近距离对话的 AI,和训练一个在更大的空间范围内使用的 AI(比如 Echo),也有很大的不同。这些系统的限制很多,这意味着我们离更通用的 AI 系统还有很大的距离。

从心理学层面上来说,一旦你对着一个 AI 说话,那么就会比你使用文本或者图形界面与计算机交互要投入更多感情。我观察到的很有意思的一点是,当我为 Jarvis 植入声音之后,我会希望它能更幽默一些。其中一部分原因是因为它现在可以与 Max 对话,我希望对话有趣一些,能够逗 Max 开心。另一部分原因感觉它一直在我们身边。我教了他一些有趣的小游戏,比如我和 Priscilla 可以问它我们应该挠谁的痒痒,他会随机告诉我们一个名字:Max 或者 Beast。我还会增加一些经典台词,比如“对不起,Priscilla。恐怕我做不到”。

在语音这一领域还有很多需要探索。AI 技术刚刚变得能够成为一款伟大产品的基础,在未来的几年它会变得越来越好。同时,我认为最好的产品应该可以随身携带而且可以进行私密性对话的。

Facebook的工程环境

作为 Facebook 的CEO,我并没有多少时间写代码,但我从未停止过编程。不过这些日子以来我主要是在创建我的个人项目Jarvis。我本来只希望今年能够了解一些 AI 的现状和进展,但是我发现学到的远远超出了我的预期,感觉自己就像是 Facebook 的一个工程师。

我在 Facebook 的代码库中升级的经验可能和大多数新的工程师类似。我们的代码结构组织非常好,不管是脸部识别、语音识别、Messenger Bot 框架(messenger.com/platform)还是 iOS 开发。你很容易找到你想要的。为了能够在 GitHub的Atom 文本编辑器上使用,我们创建了开源包——基于 Atom 的 Nuclide(github.com/facebook/nuclide),这让开发工作变得更容易。我们也创建了 Buck 系统(buckbuild.com)来开发大型项目,这节省了我很多时间。我们开源的文本分类工具 FastText(github.com/facebookresearch/fastText) 也值得一看。如果你对开发 AI 也有兴趣的话,也可以看看 Facebook Research(github.con/facebookresearch)在 Github 上的所有开源项目。

”快速行动“是我们的价值观之一。这意味着到 Facebook 来的人创建 App 的速度必须比在其他任何地方都快,包括自主开发。到我们这来的员工可以使用我们的基础设施和 AI 工具来创建那些依靠自己需要很长时间的东西。创建让工程更高效的内部工具对任何的科技公司来说都是非常重要的,而 Facebook 在对待这一问题上更加重视。在这里,我要给我们的团队一个大大的赞!

接下来的工作

尽管这个挑战已经结束了,但我仍将继续优化 Jarvis,因为我每天都在使用它,而且常常发现我想添加的新功能。

近期,下一步工作应该是创建安卓 App,在更多的房间里放置 Jarvis 语音终端,连接更多的家电。希望未来能够用 Jarvis 来控制我的 Big Green Egg 碳炉。

未来,我还会探索如何教会 Jarvis 如何自主学习的技能,而不是让我去教它执行特定的任务。如果我要花费一年的时间来应对这个挑战,那么我会专注于理解学习本身这个过程是如何运作的。

最后,随着时间的推移,如果能够找到方法让 Jarvis 可以让全世界的人都使用将会更有趣。我考虑过开源我的代码,但是目前 Jarvis 跟我自己的家、家里的电器以及网络设置的联系太紧密了。如果我能创建一个能够将更多通用的智能家庭功能集合起来的 layer,或许那时候我会开源。当然,那可能回事创建新产品的好的基础。

结语

创建 Jarvis 是一个有趣的智力挑战。它给了我在创建 AI 工具方面的直接经验,而 AI 对我们的未来非常重要。

我曾经预测,在未来的 5-10 年内,我们的 AI 系统将比人类的感官更加准确——视觉、听觉、触觉,以及其他的领域,比如语言等。

与此同时,我们距离了解学习的本质仍然很遥远。我今年所做的一切,包括自然语言、面部识别、语音识别等等,都是基于基础模式识别技术的变体。我们知道如何给一台计算机很多例子来让它的识别更精确,但是我们仍然不知道将从一个领域中获得的想法应用到另一个完全不同的领域中去。

今年,我在构建 Jarvis 上花了差不多 100 个小时。现在我有了一个能理解我而且能为我做很多事的系统。但是就算我花 1000 个小时,估计也打造不出一个能完全自主学习新技能的系统。除非我在AI技术上取得了基础性的突破。

在种程度上,AI 离我们很近,也离我们很远。但是AI未来能够能够做的事会超出很多人的预期:驾驶汽车,治疗疾病,发现行星,理解媒体。这些都会对我们所处的世界产生重大影响,但是我们仍然需要弄清楚,到底什么才是真正的智慧。

总之,这是一个很棒的挑战。它教会我的东西比我预期的要多得多。我不仅了解了 AI,还了解到了家居自动化和 Facebook 内部技术的知识。这正是这些有这些挑战有趣的地方。在未来的几周里,我会分享我给自己制定的 2017 年的挑战。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 自然语言
  • 视觉和面部识别
  • Messenger Bot
  • 声音和语音识别
  • Facebook的工程环境
  • 接下来的工作
  • 结语
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档