AI科技大本营消息,北京时间周一(2月12日)晚间,Google 宣布,在 Google Cloud Platform(GCP)上正式推出Cloud TPUs 测试版服务,帮助研究人员更快地训练和运行机器学习模型 。目前的收费标准为 6.5美元/Cloud TPU/小时,而且供应有限,需要提前申请。
TPU(Tensor Processing Unit)的全名为张量处理单元 ,是 Google 专为机器学习而定制的一款芯片。在去年 5 月 18 日的Google I/O 大会上,Google 正式推出第二代 TPU —— Cloud TPU,相比第一代,第二代对推理和训练都进行了优化。
然而,Google 的 TPU 一直只在内部使用,此次 Google 首次对外全面开放自家的 TPU,这或许意味着谷歌正式向英伟达的 GPU 开炮,加速 TPU 的商业化进程,在 AI 基础设施领域抢占地盘。
以下是 Google Cloud 的官方博客内容:
Cloud TPUs 是 Google 设计的一系列硬件加速器,专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。每个 Cloud TPU 由四个定制的 ASIC 构成,单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops(万亿次每秒),内存宽带 64GB。
这些板卡可以单独使用,也可以通过超快的专用网络连接在一起,共同构建成 multi-petaflop(几千万亿次每秒) 的机器学习超级计算机,我们称之为“TPU pods”。今年晚些时候,我们将在 GCP 上提供这些大型的“超级计算机”。
我们设计 Cloud TPUs 的目的是为了给 TensorFlow 工作负载提供差异化的性能,让机器学习工程师和研究人员能够更快地迭代(机器学习模型)。比如:
传统上,为定制的 ASIC 和超级计算机编写程序需要深入的专业知识,但是对于 Cloud TPU 而言,你可以使用高级的 TensorFlow APIs 进行编程。我们开源了一系列高性能 Cloud TPU 模型实现,帮助你快速上手:
为了节约你的时间和精力,我们将持续测试这些模型实现在标准数据集上的性能和收敛至期望准确率的情况。
之后,我们还将开源更多的模型实现。热爱探索的机器学习专家可以使用我们提供的文档(https://cloud.google.com/tpu/docs/)和工具(https://cloud.google.com/tpu/docs/cloud-tpu-tools),优化其他在 Cloud TPUs 运行的 TensorFlow 模型。
如果你现在就开始使用 Cloud TPU,那么在今年晚些时候我们推出 TPU pod 时,你将会从训练时间到准确率的大幅提升中收益。正如我们在 NIPS 2017 上宣布的那样,在一个完整的 TPU pod 上,ResNet-50 和 Transformer 的训练时间将从大半天将至 30 分钟以内,而且无需修改任何代码。
Cloud TPU 同样简化了机器学习计算资源的规划和管理过程:
你可以为自己的团队提供顶尖的机器学习加速,并且根据需求的变化动态调整自己的容量;
除了 Cloud TPUs,Google Cloud 也会提供一系列的高性能 CPU(包括英特尔 Skylake)和 GPU (包括英伟达 Tesla V100)。
目前,Cloud TPU 的供应依然受限,价格将以秒计费,大约为 6.5 美元/Cloud TPU/小时,申请地址为:https://services.google.com/fb/forms/cloud-tpu-beta-request/。