Facebook在2018年过的并不好,一连串的数据泄露丑闻打的小扎和他同事措手不及。但是,一年的时间,Facebook仍然做出了许多的成绩,尤其在AI方面,这家社交媒体公司利用人工智能开发了许多的应用。
近日,扎克伯格在个人的Facebook账号上发布了对公司的“年终总结”。扎克伯格在年终总结中就其中最重要的几个问题做出了解释,叙述了Facebook 在过去一年里所做的改变。让我们看看Facebook的年度总结。
解释2018麻烦源头
2018年Facebook被爆出的负面新闻颇多,首先,扎克伯格对一切麻烦的源头“干扰选举”做了解释。扎克伯格写道,为了防止选举受到干扰,Facebook改进了识别虚假账户的系统,并协调了信息宣传活动。“现在Facebook 每天都要清除数百万个虚假账户。”
另外,Facebook开始与世界各国的事实核查人员合作,并为广告透明度制定了新的标准。“现在任何人都可以看到广告商投放给不同受众的所有广告。”此外,Facebook还成立了独立的选举研究委员会,研究隐藏的威胁和应对威胁的办法。
其次,为了阻止有害内容的传播,Facebook建立了能够自动识别和删除与恐怖主义、仇恨言论有关内容的AI 系统,能够在这些内容被用户看到之前采取行动。“这些系统无需用户举报就可删除99% 与恐怖主义有关的内容。”
扎克伯格称 Facebook已经改进了 NewsFeed,以促进来自可信来源的新闻传播。“我们正在开发新的系统来自动减少边缘内容的传播,包括耸人听闻和错误的信息。”为了处理AI 无法判断的复杂案件,Facebook将内容审查团队的规模扩大了两倍,并建立了上诉系统。
再次,为了保护用户隐私,Facebook减少了应用程序可以访问的信息,并以新的《通用数据保护条例》(GDPR)为标准进行了改造,构建了Clear History 工具,使人们对自己的浏览历史有更多控制权,并允许用户彻底清除记录。
扎克伯格在这篇长文中总结称:与2016、2017年相比,Facebook现在已经是个截然不同的公司。“我们已经从根本上改变了我们的DNA,更多专注于我们的所有服务中预防伤害,我们已经系统性地将我们公司的很大一部分转移到预防伤害上。我们现在有3 万多人从事安全工作,每年在安全方面的投入达数十亿美元。”
但同时,他也表示,“这并不意味着我们能抓住所有坏人或发现所有不好的内容,也不意味着在我们改进系统之前,人们不会找到更多过去所犯下错误的例子。其中有些问题,如选举干扰或有害言论,永远不能彻底解决。”
一年过去了。虽然扎克伯格表示对公司感到“骄傲”,但Facebook 一年前遇上的麻烦却仍然没有解决。
Facebook AI进展情况
2018年,Facebook在各个领域都取得了重要进展。Facebook提出了新的研究,除了图像识别上的进展,在NLP领域,现在可以用较少的监督数据翻译更多的语言。发布了许多平台和工具来帮助其他人将他们的人工智能研究转化为生产应用程序,包括我们将目前流行的开源深度学习框架PyTorch 升级成新的、更通用的1.0 版本。除了发表广泛的公共研究论文和相关模型以及数据集外,Facebook还发现人工智能有潜力通过MRI扫描、灾难援助和预防自杀的工具来改善人们的生活。以下是Facebook过去一年在人工智能领域所做努力的亮点内容(来自总结原文)。
通过半监督和无监督训练促进人工智能学习
当前,大多数AI系统更多使用的还是监督式学习,这意味着他们必须使用大量被标记过的样本才能进行学习任务,而这些样本数量对于训练需求来说是严重不足的,因而这也就限制了技术长期发展的潜力,而想要改变以上问题可能需要多年的研究。
Facebook AIResearch(FAIR)小组成立后,在人工智能研究上进行了多样的探索。2018年,该小组使用了无监督机器翻译,通过减少对标记训练数据的依赖,打开了翻译“小语种”的大门,让我们的系统支持更多的语言翻译。
主要采用多种方法来避免标签训练数据不足的问题,包括使用多语言建模来利用给定语言组中方言之间的相似性,例如白俄罗斯语和乌克兰语、乌尔都语等语言的资源目前都很少,与英语相比,他们现有数据集十分有限。
虽然使用的是无监督的数据,但是它的性能却能与“打标签”数据训练的系统相媲美。现在无监督方法有了更实质性的改进。
这就是为什么我们要探索更多的训练方法,让监督学习变得不再那么重要的原因。半监督和无监督式的学习方法或许是不错的选择。
在这项研究在今年已经被应用。并且为自动翻译软件增加了24种语言。此外,在与纽约大学合作过程中,我们为现有的MultiNLI数据集添加了14种语言,这些数据集广泛用于自然语言理解研究,此前仅有英语版本。
我们最新的XNLI数据集中包括两种低资源语言:斯瓦希里语和乌尔都语,这一方法有助于整体采用跨语言的语言理解,从而减少了对标记数据的需求。
为了研究基于标签的图像识别,我们颠覆了传统的研究方法,新的方法能够使得数据进行自我标记并形成大型训练集,例如35亿个公开的Instagram图像就是用这么形成的。
我们的结果不仅证明使用数十亿个数据点对于基于图像的任务非常有效,而且它还使我们打破了一个记录,比ImageNet上先前最先进的图像识别模型的准确率高出一个百分比。
Hashtags可以帮助计算机视觉系统快速识别图像的额外信息以及特定的子类。
加快人工智能研究和产业应用的融合
AI已成为Facebook几乎所有产品和服务的基础。这点从我们的工程师正在构建和增强的各种基于AI的平台和工具中可以看出。
但是在2018年Facebook有了一个共同的主题:如何将人工智能技术嵌入到人工智能系统中。
自2017年PyTorch发布以来,深度学习框架已被AI社区广泛采用,它目前是GitHub上增长速度第二快的开源项目。PyTorch的用户友好界面和灵活的编程环境使其成为AI开发中快速迭代的通用资源。由于代码库的贡献和反馈,其开放式设计确保了框架将继续改进。对于2018年,我们希望为PyTorch社区提供更加统一的工具集,重点是将他们的AI实验转变为生产就绪的应用程序。
我们在5月份的F8会议上发布了更新的框架,我们详细介绍了它的原型系统和设置,以及它是如何集成Caffe2模块的。还有产品为导向的能力和新扩展的ONNX。这一切都简化了整个AI开发流程。
10月,我们在第一届PyTorch开发者大会上发布了PyTorch1.0开发人员预览版。也展示了该框架的平台生态系统。谷歌,微软,NVIDIA,特斯拉和许多其他技术提供商在该活动中对PyTorch1.0进行讨论,且fast.ai和Udacity都上线了新版本课程,教授深度学习。
我们在本月早些时候完成了PyTorch1.0的推出,放出了其完整版本的所有功能,例如在eager和图形执行模式之间无缝转换的混合前端,改进的分布式训练,以及纯C++前端,用于高性能研究。
我们今年还发布了一些工具和平台,扩展了PyTorch的核心功能,包括一对内核库(QNNPACK和FBGEMM),它可以使移动设备和服务器更容易运行最新的人工智能模型。还有一个加速自然语言处理开发的框架—PyText。
PyTorch还为Horizon提供了基础。Horizon是第一个使用应用强化学习(RL)来优化大规模生产环境中的系统的开源端到端平台。
Horizon对RL进行了大量研究,但很少尝试进行决策,也没有用于那种可能包含数十亿条记录的数据集的应用程序。在Facebook内部部署平台后,在优化流视频质量和改进Messenger中的M建议等用例中,我们使Horizon开源桥接RL研究和生产,让任何人都可以下载。这是一个显示Horizon的反馈路径的高级图表。首先,我们预处理现有系统记录的一些数据。然后,我们训练模型并在离线设置中分析反事实政策结果。最后,我们让专门人员配置模型,衡量真正的政策。新模型的数据反馈到下一次迭代,大多数团队每天都会部署一个新模型。
我们还发布了Glow——一个开源的、社区驱动的框架。其支持机器学习(ML)的硬件加速。Glow与一系列不同的编译器,硬件平台和深度学习框架(包括PyTorch)合作,现在由包括Cadence,Esperanto,Intel,Marvell和QualcommTechnologies Inc.在内的合作伙伴提供支持。
为了进一步鼓励在整个行业中使用机器学习,我们发布了一种新的机器学习优化服务器设计,称为BigBasin v2,作为开放计算项目的一部分。我们已将新的模块化硬件添加到我们的数据中心机队中,并且任何人都可以在OCP市场下载BigBasin v2的规格。
2018年标志着OculusResearch转变为FacebookReality Labs,以及对AI和AR/VR研究重叠的新探索。作为我们尽可能多地开源人工智能相关工具的持续努力的一部分,我们发布了DeepFocus项目的数据和模型,该项目使用深度学习算法在VR中渲染逼真的视网膜模糊。
在未来一年,我们希望获得有关所有这些版本的更多反馈。我们将继续构建和开源工具,完成PyTorch1.0的使命,帮助整个开发人员社区从实验室和研究论文中,提取最先进的AI系统并投入生产。
建立有益于每个人的AI
我们在开发非常广泛的AI技术的技术方面有着悠久的历史记录。在过去的一年中,我们继续部署应用人工智能的工具使世界受益,包括我们对自杀预防工具的扩展开发,这些工具使用文本分类来识别那些表达自杀的想法和语言的帖子。该系统使用单独的文本分类器来分析帖子和评论,接着如果可以的话,将它们发送给我们的社区运营团队进行审核。
该系统利用我们已建立的文本理解模型和跨语言功能,让我们能够接触到需要获得服务的人群数量得到提升。
我们还发布了一种使用AI的方法,可以快速准确地帮助查明灾难影响最严重的区域,而无需等待手动标注数据。
这种方法是与CrowdAI合作开发的,能够以更快速和更高效为受害者提供援助。将来,这项技术还可用于量化森林火灾,洪水和地震等大规模灾害造成的破坏程度。
我们部署了一个名为Rosetta的机器学习系统,每天从超过十亿个公共图像和视频帧中提取文本,并使用文本识别模型一起理解文本和图像的上下文。Rosetta适用于多种语言,它自动识别有助于我们了解模因meme(目前比较公认的定义是“一个想法,行为或风格从一个人到另一个人的传播过程。)和视频或违反政策内容。
2018年,一个与纽约大学医学院的长期合作的项目—fastMRI启动。这个项目的目标是改进现有的诊断成像技术,使MRI扫描速度提高10倍。
fastMRI的目标不是开发专有流程,而是为了加速该领域技术。我们的合作伙伴已经为这项研究制作了有史以来最大的全采样MRI原始数据集(由纽约大学学院完全匿名发布),以及开源模型,可以帮助更广泛的研究群体开始这项任务。我们还推出了在线排行榜,其他人可以发布并比较他们的结果。
我们对 2018年在关键层面(开展基础研究、部署前沿应用、分享使用人工智能帮助他人的新方法)取得的进展感到兴奋,期待在未来一年继续努力。
文章链接:https://mp.weixin.qq.com/s/xFBL7O5CMdQGahN5IQVHIg
领取专属 10元无门槛券
私享最新 技术干货