业界 | 深度定制:揭秘Graphcore深度学习芯片加速软件

选自The Next Platform

作者:Nicole Hemsoth

机器之心编译

参与:侯韵楚、黄小天、李泽南

两年来,我们推出了一系列专为处理神经网络的训练及推理而设计的深度学习结构。我们广泛并购投资或并购,但仅有少部分人看出了要点——收购一年多前推出的 Nervana 系统。

在众多神经网络芯片的初创公司中,Graphcore 凭借处理同一块多核芯片上的训练及推理问题的多核方法而鹤立鸡群。我们在三月份详述了其硬件架构(详情参阅机器之心报道:深度学习芯片公司 Graphcore 初探:颠覆 GPU、FPGA 和 CPU 的新一代处理器 IPU)。尽管众所周知 Graphcore 从 Series A 融资 3000 多万美元,但它现今被公开认为戴尔才是其背后金主。戴尔技术资本、博世、三星以及其他投资者已将 Graphcore 推过了 3200 万美元大关。考虑到戴尔,Graphcore 首席执行官兼联合创始人 Nigel Toon 认为他们将通过戴尔的 OEM、渠道以及产品整合能力实现深入发展。

鉴于今天的这则消息,我们希望折回到 3 月份所提供的最初的硬件深入研究中,并关注 Graphcore 所提供的另一层面——软件堆栈。在 Graphcore 以 PCIe 为基础的硬件中,对处于核心位置的定制开发型 IPU 处理器而言,在同一台设备上进行训练抑或推理都属于艰巨的任务。

正如 Toon 对 The Next Platform 所言,深度学习框架正在从数据中获取知识模型,并且通过计算图来表示这些特征是最佳途径。在某种程度上,所有机器学习框架的核心都是将全部内容转化为图形,而这些图形的边缘和顶点可以表示特征之间的相关性和连接性。它们可能会将连接表征为单标量权重、矩阵抑或描述关系或特征集的张量。因此,应用其能够反映格式的硬件设备来使图形更加明确地表征这个概念不无道理。它变成了与采取深度学习框架相似的问题,并将其「引爆」以显示所有的边缘和顶点,然后划分图形来将问题映射至芯片上的多核,并控制这些处理器之间的通信,从而使它们拥有所需的数据。很简单,对不对?

但事实证明它十分棘手,然而 Graphcore 利用 Poplar 软件框架逐渐解决了这个引爆、划分、映射与通信问题。

Poplar 驱动一个以 PCIe 为接口的 16 个处理器的 Graphcore IPU 组件,它需要开发人员在 TensorFlow 中启动(这个团队正致力于将库和支持机制扩展到其他框架),随后构建所需训练的神经网络的描述(设定参数等)。Poplar 插入了 Graphcore 所开发的许多库元素之一(类似于英伟达为其 GPU 提供的 cuDNN 元素),并插入诸如卷积或不同的基元来取代 TensorFlow 中编写的高级描述。随后它会通过将它们扩展为完整而复杂的图形「引爆」这些图形的边和顶点。这款软件能够对处理元件和内部通信资源进行映射和划分,因此它能够处理图形并创建可以馈送至处理器的程序。

真正的难题是,所有处理器都必须拥有所需的全部数据。而 Poplar 的目的便是采取更多诸如 TensorFlow 做出的抽象图形描述,将它们展开为包含全部边缘和顶点的整体图,而后分解为可以分配到处理元素中的工作包。

Graphcore 芯片最初令人着迷的一点便是能够在同一块硬件上进行高效训练和推理。Toon 告诉我们,实际上实现这一点并未涉及任何功能广泛的软件,它更像对深度神经网络问题采用图形功能。Toon 解释道:「学习便是构建图表并进行优化以确立正确的答案、预测、推理以及判断,并且它们都只是图形中不同的优化任务。根本来说,它们都属于相同的计算。它们在执行时需要的计算量可能不同,但总体而言十分相似。如果我有一块可以连接在一起并使用多个处理器来进行速度训练的计算硬件,那么我可以使用其他处理器在不同的时间进行部署或推断;只要设计的处理器不必以特定的方式进行调整和控制来实现高性能,这便可能实现。」

真正困难的是改变与维护那些目前支持的库,以及那些随着新型神经网络方法的出现而逐渐过时的库。Toon 认为主要框架大多仅仅是 API 级别的问题,但团队将需要对新型的未来库施以例行的深入维护。

这家公司将在今年推出一个 Graphcore 堆栈的云技术版本。我们应该关注它的早期使用情况,看看这个高度定制化的处理环境能为 GPU、FPGA 甚至是少数仅有 CPU 的训练及推理任务带来什么。

原文链接:https://www.nextplatform.com/2017/05/08/dive-deep-learning-chip-startup-graphcores-software-stack/

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

神经网络要从原子抓起:原来白花花的银子才是神经芯片的未来

编译 | ziqi Zhang 审校 | 波波 最近几年,神经网络、深度学习的风靡程度简直可以跟当年美国19世纪中期的淘金热同日而语。大量研究者从传统的“机器...

31050
来自专栏新智元

AI摩尔定律继续超速?2028年,1美元能买200GFLOPS计算力!

【新智元导读】摩尔定律不断给人这种感觉:就是在此时此刻,我们正处于人工智能行业独一无二的大变革时期。然而,只要计算力的增长继续遵循指数级的价格-性能曲线,那么未...

11730
来自专栏AI科技大本营的专栏

AI 技术讲座精选: 数学不好,也可以学习人工智能(二)

【AI100 导读】本系列文章将陆续向大家推荐一些数学用书,今天这篇文章有针对性的介绍了数学不好的人,究竟该怎样学习人工智能。 ? 如果你已经看过本系列的第一篇...

38260
来自专栏AI科技评论

干货 | 这些关于 TensorFlow 问题的解答,你不能错过

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课, www.m...

32250
来自专栏量子位

XNOR.ai要简化数学,让人工智能从云端走进普通设备

来源 | TechCrunch 编译 | 量子位 陈桦 与许多计算机概念类似,在讨论人工智能、机器学习或深度卷积网络时,人们关注的是数学。这些高性能网络的核心是...

257100
来自专栏AI科技评论

视频 | 进化策略让AI开挂,玩游戏不断给自己续命

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。

10320
来自专栏机器之心

资源 | 《Deep Learning》中文印前版开放下载,让我们向译者致敬

选自GitHub 机器之心整理 参与:蒋思源 《Deep Learning》中文版(印前版)正式发布。这本书适合于各类读者,尤其是学习机器学习的本科或研究生、深...

38570
来自专栏福利活动清单

腾讯云云智AI资源包重磅推出

OCR文字识别,基于腾讯世界领先的深度学习技术和海量数据,提供卡证、票据类、印刷体、手写体、自定义模板等多种场景和类型的文字识别服务,大大提高信息录入效率、降低...

21050
来自专栏ATYUN订阅号

Nvidia推出搭载16颗GPU的HGX-2,加速人工智能训练

Nvidia今天推出了搭载16颗Tesla V100图形处理单元(GPU)芯片的云服务器平台HGX-2,提供了半个TB的GPU内存和两千万亿次的计算能力。GPU...

12820
来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

13820

扫码关注云+社区

领取腾讯云代金券