随着深度学习技术的发展,语音合成技术也经历了从传统的基于参数合成(HTS)至基于深度神经网络的样本级合成(Parallel WaveNet)的变革。相比与传统方法,基于神经网络的新方法在语音的自然度与可理解性上都有了突破性的提升;然而,新方法的计算开销非常大。当微信AI需要将其应用于海量在线系统中,非常难以用于生产系统。
**张量是所有深度学习框架中最核心的组件,因为后续的所有运算和优化算法都是基于张量进行的。**几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。
人工智能、机器学习和深度学习 在介绍TensorFlow(以下简称为TF)之前,我们首先了解一下相关背景。 TF是一种机器学习框架,而机器学习经常和人工智能,深度学习联系在一起,那么三者到底是什么关系呢? 简单来讲三者可以理解为包含于被包含的关系。其中最大的是人工智能(以下简称为AI),AI最早起源于1956年的达特茅斯会议,当时AI的几位先驱在会上展示了最早的AI程序:Logic Theorist,能够自动推导数学原理第二章前52个定理中的38个,甚至其中一个定理的证明过程比书中给出的还要优
TensorFlow概要 Google第一代分布式机器学习框架DistBelief1,在内部大规模使用后并没有选择开源。而后第二代分布式机器学习系统TensorFlow2终于选择于2015年11月在GitHub上开源,且在2016年4月补充了分布式版本,并于2017年1月发布了1.0版本的预览,API接口趋于稳定。目前TensorFlow仍处于快速开发迭代中,有大量新功能及性能优化在持续研发。TensorFlow最早由Google Brain的研究员和工程师开发,设计初衷是加速机器学习的研究,并快速地
前四篇文章我们介绍了 PaddleFluid 和 TensorFlow 的设计原理基本使用概念,分别通过在两个平台上实现完全相同的模型完成图像分类,语言模型和序列标注三个任务,了解我们的使用经验如何在两个平台之间迁移,以此来了解非序列模型和序列模型在两个平台之上设计和使用的差异。
总第492篇 2022年 第009篇 GPU等专用芯片以较低的成本提供海量算力,已经成为机器学习领域的核心利器,在人工智能时代发挥着越来越重要的作用。如何利用GPU这一利器赋能业务场景,是很多技术研发者都要面临的问题。本文分享了美团外卖搜索/推荐业务中模型预估的GPU架构设计及落地的过程,希望能对从事相关应用研发的同学有所帮助或启发。 1 前言 2 背景 3 外卖搜推场景下的精排模型 4 模型服务架构概览 5 GPU优化实践 5.1 系统优化 5.2 计算优化 5.3 基于DL编译器的自动优化 6 性能表
TensorFlow™是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。
不同行业采用人工智能的速度取决于最大化数据科学家的生产力。NVIDIA每个月都会发布优化的NGC容器,为深度学习框架和库提供更好的性能,帮助科学家最大限度地发挥他们的潜力。英伟达持续投资于完整的数据科学栈,包括GPU架构、系统和软件栈。这种整体的方法为深度学习模型培训提供了最好的性能,NVIDIA赢得了提交给MLPerf的所有六个基准测试,这是第一个全行业的AI基准测试。NVIDIA在最近几年引入了几代新的GPU架构,最终在Volta和图灵GPU上实现了张量核心架构,其中包括对混合精度计算的本机支持。NVIDIA在MXNet和PyTorch框架上完成了这些记录,展示了NVIDIA 平台的多功能性。
Caffe已经很久没有更新过了,曾经的霸主地位果然还是被tensorflow给终结了,特别是从0.8版本开始,tensorflow开始支持分布式,一声叹息…MXNet还是那么拼命,支持的语言新增了四种,Matlab/Javascripts/C++/Scala,文档也变的更漂亮了,还推出了手机上图片识别的demo[8]。 1 基本数据结构 库名称数据结构名称设计方式CaffeBlob存储的数据可以看成N维的c数组,有(n,k,h,w)四个维数,一个blob里面有两块数据空间保存前向和后向求导数据MXNetND
选自arXiv 作者:施少怀、褚晓文 机器之心编译 参与:陈韵竹、李泽南 随着深度学习应用不断进入商用化,各类框架在服务器端上的部署正在增多,可扩展性正逐渐成为性能的重要指标。香港浸会大学褚晓文团队近日提交的论文对四种可扩展框架进行了横向评测(Caffe-MPI、CNTK、MXNet 与 TensorFlow)。该研究不仅对各类深度学习框架的可扩展性做出了对比,也对高性能服务器的优化提供了方向。 近年来,深度学习(DL)技术在许多 AI 应用当中取得了巨大成功。在获得大量数据的情况下,深度神经网络(DNN)
选自PyTorch 机器之心编译 今天 PyTorch 刚好一周年。自发布以来,由于调试、编译等多方面的优势,它成为 2017 年热度极高的框架之一。本文内容介绍了开源一周年以来,PyTorch 取得的成绩。在一些指标上,PyTorch 也与 TensorFlow 做了同期对比。PyTorch 是不是 2017 年的明星框架? 📷 Yann LeCun Twitter 截止到今天,PyTorch 已公开发行一周年。一年以来,我们致力于打造一个灵活的深度学习研究平台。一年以来,PyTor
美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景中,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。
课程链接:https://web.stanford.edu/class/cs20si/syllabus.html Tensorflow简介 TensorFlow™ 是一个使用数据流图进行数值计算的开放源代码软件库。图中的节点代表数学运算,而图中的边则代表在这些节点之间传递的多维数组(张量)。借助这种灵活的架构,您可以通过一个 API 将计算工作部署到桌面设备、服务器或移动设备中的一个或多个 CPU 或 GPU。TensorFlow 最初是由 Google Brain 团队(隶属于 Google 机器智能研究
Tensorflow实战Google深度学习框架: https://github.com/caicloud/tensorflow-tutorial/tree/master/Deep_Learning_with_TensorFlow/1.4.0
TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。它是目前应用最广泛的机器(深度)学习框架,利用TensorFlow,你可以很快的构建深度学习模型,目前在工业界应用非常广泛,截止到目前最新版本是tf.1.11。
CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来,随着深度神经网络的引入,CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点,结合GPU硬件架构,我们设计了一系列流程对模型进行定制优化,达到了降低延迟、提高吞吐、节省成本的目标。
近年来,深度学习领域的进展与深度学习框架的开发同步进行。这些框架为自动微分和 GPU 加速提供了高级且高效的 API,从而可以利用相对较少和简单的代码实现极度复杂和强大的深度学习模型。
自从Julia团队提出“需要一流的语言、编译器和机器学习(ML)生态系统”以来,该领域呈现出一些有趣的发展趋势。
翻译:穆文&韩小阳 校对:寒小阳 & 龙心尘 导 读 之前的课程里介绍了自然语言处理当中的一些问题,以及设计出来的一些相应的算法。research的东西还是落地到工程应用上比较有价值,之前也手撸过一些toy project,不过这些实现要用在工程中,总是有那么些虚的,毕竟稳定性和效率未必能够保证。所幸的是,深度学习热度持续升温的大环境下,各种大神和各家大厂也陆续造福民众,开源了一些深度学习框架,在这些开源框架的基础上去搭建和实现自己想要的深度学习网络结构就简单和稳定得多了。 有时候选择多了也是麻烦,对框架
前言:主要介绍TensorFlow的基础知识,深度学习的基本知识将在后面进行一一介绍 什么是TensorFlow? 可以拿python最经典的计算包numpy来进行比较,和numpy类似,用于数据计算,常用于开发深度学习框架。为了更好理解它,从以下几个方面介绍: 1.TensorFlow是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。 2.从命名来理解:Tensor(张量)意味着N维数组,Flow(流)意味 着基于数据流图的计算。Tensorflow运行过程就是张量从图
百度推出飞桨(PaddlePaddle)后,不少开发者开始转向国内的深度学习框架。但是从代码的转移谈何容易,之前的工作重写一遍不太现实,成千上万行代码的手工转换等于是在做一次二次开发。
随着深度学习的发展,用户越来越依赖 GPU 或者其他加速器进行大规模运算。人工智能(Artificial Intelligence)需要更优秀的软件来释放硬件的能量已成业界共识。一方面,各种框架需要进一步降低编写深度学习分布式训练程序的门槛;另一方面,用户期待系统可以支持不同的深度学习网络模型,并实现线性加速。各知名深度学习框架正在朝这方面努力,但用户在使用这些框架时仍会遇到横向扩展性的难题,或者是投入很多计算资源但没有看到效率收益,或者是问题规模超过 GPU 显存限制而无法求解。
总第237篇 2018年 第29篇 简介 TensorFlow是Google研发的第二代人工智能学习系统,能够处理多种深度学习算法模型,以功能强大和高可扩展性而著称。TensorFlow完全开源,所以很多公司都在使用,但是美团点评在使用分布式TensorFlow训练WDL模型时,发现训练速度很慢,难以满足业务需求。 经过对TensorFlow框架和Hadoop的分析定位,发现在数据输入、集群网络和计算内存分配等层面出现性能瓶颈。主要原因包括TensorFlow数据输入接口效率低、PS/Worker算子分
作者:Sujith Ravi 机器之心编译 近日,谷歌在 Google I/O 发布了 ML Kit,其核心功能之一是「Learn2Compress」技术支持的自动模型压缩服务。Learn2Compress 可直接将 TensorFlow 模型压缩为 TensorFlow Lite 中的设备内置(on-device)模型,可在移动设备上高效运行,而无需担心内存优化和速度问题。 成功的深度学习模型的训练和运行通常需要大量的计算资源、内存和计算能力,这成为其在移动设备和物联网设备上表现良好的障碍。设备内置
选自PyTorch 机器之心编译 今天 PyTorch 刚好一周年。自发布以来,由于调试、编译等多方面的优势,它成为 2017 年热度极高的框架之一。本文内容介绍了开源一周年以来,PyTorch 取得的成绩。在一些指标上,PyTorch 也与 TensorFlow 做了同期对比。PyTorch 是不是 2017 年的明星框架? Yann LeCun Twitter 截止到今天,PyTorch 已公开发行一周年。一年以来,我们致力于打造一个灵活的深度学习研究平台。一年以来,PyTorch 社区中的用户不断做出
Shan Zhou,携程算法专家,主要负责携程度假AI应用在CPU和GPU平台的性能优化,涉及计算机视觉,自然语言处理,机器翻译和语音处理等多个领域。
继2019年10月谷歌在《Nature》上发布关于验证“量子优越性”论文之后,3月9日,谷歌再次就“量子”做出新的发布。
在使用Python时,有时可能遇到ImportError: DLL load failed: 找不到指定的模块错误。这个错误通常是由于无法找到依赖的动态链接库(DLL)文件引起的。本篇文章将介绍一些解决这个问题的方法。
在机器学习的领域中,张量指的是描述神经网络的数学模型中使用的多维数组。换言之,张量通常是一个矩阵或矢量的更高维泛化。 通过一种使用秩来显示维数的简单表示法,张量可以将复杂的 n 维矢量和超形状表示为 n 维数组。张量有两个属性:数据类型和形状。 关于 TensorFlow TensorFlow 是一个开源的深度学习框架,于 2015 年末依据 Apache 2.0 许可进行发布。自那以后,它成为了在全球得到最广泛采用的深度学习框架之一(根据它的 GitHub 项目数量来判断)。 TensorFlow 的起源
TensorFlow 使用图来表示计算任务. 图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor. 每个 Tensor 是一个类型化的多维数组. 例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四个维度分别是 [batch, height, width, channels].
11月9日Google发布了第二代深度学习引擎TensorFlow,引起业内广泛关注。发布后业内人士热议的一个话题是:这个引擎能否成为Google所说的平台级产品,它的基准测试究竟怎么样? Soumith 在 Github 做基准测试,在 Google TensorFlow 发布后,Soumith 很快发布了关于 TensorFlow 的基准测试报告。 【Soumith】GoogleTensorFlow的benchmark列在了这里。 我在Imagenet Winners上运行了benchmark测试程序。
设备预测维护与工业大数据应用在设备接入(IOT HUB)和实现数据可视化之后,就要用到云计算的数据分析、机器学习和深度学习功能。目前机器学习与深度学习框架包括 TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon 等。
import tensorflow as tf a = tf.constant([1,2,3]) b = tf.constant([4,5,6]) print(a+b)
【新智元导读】DeepMind 今天开源了最新的深度学习框架 Sonnet。Sonnet 被专门设计用于与 TensorFlow 协同工作,能够更方便、直接地构建复杂神经网络模型。Sonnet 开源可以使 DeepMind 创建的其他模型轻松地与社区共享。Sonnet 将定期更新。 DeepMind 决定把整个研究架构转为使用 TensorFlow(TF)已经快一年了。这被证明是一个不错的选择——我们的许多模型学习速度明显更快,内置的分布式训练功能极大地简化了我们的代码。 我们发现TF 的灵活性和适应性适
在自然语言处理领域,以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新,为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时,也引入了更多的计算量,这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。
Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架,在业界得到了广泛应用。
大规模数据以及大型的神经网络结合在很多机器学习的任务上带来了超凡的表现。在训练深度学习模型的时候,当数据以及参数量变大的时候计算资源是决定我们算法迭代速度的关键要素之一。
安妮 编译自 PyTorch官网 今天,PyTorch公开发布一周年了。 这个自诞生之日起就火热的深度学习框架,这一年是怎样的成长轨迹?刚刚,PyTorch团队在官网上发文,盘点了PyTorch上一年的进展、大事件和社区情况,并和其他框架进行了对比。 总体来说战绩是这样的—— GitHub上有87769行Python代码导入了torch GitHub上3983个资源库在命名或描述中提到了PyTorch PyTorch文件的下载量超50万次,具体说达到了651916次 5400个用户写了21500篇帖子,在
选自Julia Blog 作者:Mike Innes等人 机器之心编译 任何机器学习系统复杂到一定程度,都会包含一个临时开发的、不合规范的、充满错误的、运行速度很慢的、只有一半功能的编程语言实现。(格林斯潘第十定律) 我们很高兴看到机器学习大爆发,以及机器学习模型的复杂度和用来构建模型的框架。越来越多的顶尖模型更多地涉及到编程问题,通常它们需要支持循环和递归等编程结构,这给创建它们的工具(编程语言)带来了一些有趣的问题。 尽管机器学习没有专用的语言,但有的机器学习框架(如 TensorFlow)在 Pyth
文章主要介绍了如何利用深度学习对图像进行特征提取和分类。首先介绍了传统特征提取方法和深度学习特征提取方法的区别,然后详细介绍了卷积神经网络(CNN)的组成和原理,以及如何使用CNN进行图像分类。最后,介绍了一种基于CNN的图像分类系统,该系统包括图像预处理、特征提取、模型训练和模型预测等模块。整个系统采用模块化设计,方便进行扩展和定制。
可以说随着人工智能技术的发展,Python语言也迎来了新的生机。由于Python易上手,语法简洁,工具库多等特点,Python已成为人工智能领域最流行的语言。
选自semianalysis.com 作者:Dylan Patel 机器之心编译 机器之心编辑部 CUDA 闭源库将和 TensorFlow 一样逐渐式微。 十年来,机器学习软件开发的格局发生了重大变化。许多框架如雨后春笋般涌现,但大多数都严重依赖于英伟达的 CUDA,并在英伟达的 GPU 上才能获得最佳的性能。然而,随着 PyTorch 2.0 和 OpenAI Triton 的到来,英伟达在这一领域的主导地位正在被打破。 谷歌早期在机器学习模型架构、训练、模型优化方面都具有很大优势,但现在却难以充分发挥
目前考虑进入梦寐以求的 机器学习、人工智能 等领域的学习,因此安装主流的机器学习框架 Tensorflow 迫在眉睫。
选自Tensorflow 机器之心编译 参与:黄玉胜、黄小天 这个文档和附带的脚本详细介绍了如何构建针对各种系统和网络拓扑的高性能可拓展模型。这个技术在本文档中用了一些低级的 Tensorflow Python 基元。在未来,这些技术将被并入高级 API。 输入管道 性能指南阐述了如何诊断输入管道可能存在的问题及其最佳解决方法。在使用大量输入和每秒更高的采样处理中我们发现 tf.FIFOQueue 和 tf.train.queue_runner 无法使用当前多个 GPU 生成饱和,例如在使用 AlexNet
可以看到各大主流框架基本都支持Python,目前Python在科学计算和数据挖掘领域可以说是独领风骚。虽然有来自R、Julia等语言的竞争压力,但是Python的各种库实在是太完善了,Web开发、数据可视化、数据预处理、数据库连接,爬虫等无所不能,有一个完美的生态环境。仅在数据挖掘工具链上,Python就有Numpy、SciPy、Pandas、Scikit-learn、XGBoost等组件,做数据采集和预处理都非常方便,并且之后的模型训练阶段可以和TensorFlow等基于Python的深度学习框架完美衔接。
随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷:Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、xDeepFM[4],美团很多篇深度学习博客也做了详细的介绍。但是,当离线模型需要上线时,就会遇见各种新的问题:离线模型性能能否满足线上要求、模型预估如何镶入到原有工程系统等等。只有准确的理解深度学习框架,才能更好地将深度学习部署到线上,从而兼容原工程系统、满足线上性能要求。
读论文有一种原则是:本领域最经典的论文,近5年最热的论文,近1年最新的论文。按照这个原则,本文主要介绍一篇Tensorflow 经典论文 Implementation of Control Flow in TensorFlow。
ChatGPT掀起的新一轮人工智能狂欢下,隐藏在背后的“大模型”正进入越来越多开发者的视野。
领取专属 10元无门槛券
手把手带您无忧上云