开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

张量流对批量梯度的张量进行混洗

张量流（TensorFlow）是一个开源的机器学习框架，由Google开发并维护。它提供了一个灵活且高效的方式来构建和部署机器学习模型。在张量流中，批量梯度下降（Batch Gradient Descent）是一种常用的优化算法，用于训练神经网络模型。

混洗（Shuffling）是指将数据集中的样本顺序打乱，以减少模型对样本顺序的依赖性，从而提高模型的泛化能力和训练效果。在张量流中，可以使用tf.random.shuffle函数来对张量进行混洗操作。

混洗对批量梯度的张量进行操作时，可以通过以下步骤实现：

加载数据集：首先，需要将数据集加载到张量流中。可以使用tf.data.Dataset.from_tensor_slices函数将张量转换为数据集对象。
批量处理：接下来，可以使用数据集对象的batch方法将数据划分为批次。批次大小可以根据实际需求进行调整。
混洗数据：使用tf.data.Dataset对象的shuffle方法对数据进行混洗操作。可以指定一个缓冲区大小，该大小决定了从数据集中随机选择样本的范围。
迭代训练：使用for循环或迭代器等方式遍历混洗后的数据集，并将每个批次的数据输入到模型中进行训练。

张量流提供了丰富的API和工具，用于支持混洗操作和批量梯度下降优化算法。以下是一些相关的腾讯云产品和产品介绍链接地址，可以帮助您更好地理解和应用张量流中的混洗操作：

腾讯云AI开发平台（https://cloud.tencent.com/product/ai）：提供了丰富的人工智能开发工具和服务，包括张量流等机器学习框架的支持。
腾讯云机器学习平台（https://cloud.tencent.com/product/tensorflow）：提供了基于张量流的机器学习平台，可用于构建和训练各种机器学习模型。

请注意，以上链接仅供参考，具体的产品选择和使用应根据实际需求进行评估和决策。

相关搜索:Torch:如何按行对张量进行混洗？具有张量流后端的Keras中的梯度反转层如何使用lua对单词的字母进行混洗采用梯度时的张量流2.0；错误表示没有为任何变量提供梯度如何使用索引表对张量进行切片并合成新的张量使用pyTorch张量对具有3维张量的特定维度进行索引如何对列表中不连续的元素进行混洗？如何对字符串数组的内容进行混洗使用GPU创建张量流中的图像对列表如何在R中对列中的值进行混洗？如何防止使用onClick对我的数组进行重复混洗沿给定索引的维度对张量进行切片如何对从数据库检索到的数据进行混洗如何对pandas数据帧的每一列进行混洗？Python:对numpy数组的元素进行混洗并放回初始顺序如何在js中对html中的图片进行混洗后进行更改？对张量进行排序并返回排序后的索引？使用Numpy对Python中的张量数组进行平均如何在给定密钥作为种子的情况下对字节数组进行混洗和反混洗在Python列表中查找重叠的元组并对其进行混洗

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PyTorch进阶之路（二）：如何实现线性回归

这篇文章将讨论机器学习的一大基本算法：线性回归。我们将创建一个模型，使其能根据一个区域的平均温度、降雨量和湿度（输入变量或特征）预测苹果和橙子的作物产量（目标变量）。训练数据如下：

03

在keras中model.fit_generator()和model.fit()的区别说明

首先Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便，但是如果我们数据量很大，那么是不可能将所有数据载入内存的，必将导致内存泄漏，这时候我们可以用fit_generator函数来进行训练。

03

Keras之fit_generator与train_on_batch用法

关于Keras中，当数据比较大时，不能全部载入内存，在训练的时候就需要利用train_on_batch或fit_generator进行训练了。

02

OpenAI提出比GAN更具优势的可逆生成模型Glow

Glow，一种使用可逆1×1卷积的可逆生成模型。它扩展了以前的可逆生成模型，简化了架构。模型可以生成逼真的高分辨率图像，支持高效采样，并发现可用于操纵数据属性的功能。我们正在发布模型代码和在线可视化工具，以便人们可以探索并构建这些结果。另外，网站上也可以进行交互性操作。

03

深度学习三人行(第3期)---- TensorFlow从DNN入手

该期我们将从DNN入手开始学习TensorFlow方面的相关知识。学习的路上，我们多多交流，共同进步。本期主要内容如下：从生物学到人工神经网络训练多层感知机训练DNN 文末附本期代码关键字，回复关键字即可下载。 ---- 一. 从生物学到人工神经网络鸟类启发我们飞翔，牛蒡植物启发魔术贴，而大自然激发了许多其他发明。那么，大脑的体系结构，是激发人工神经网络（ANN）的关键思想。人工神经网络是深度学习的核心。 1.1 从生物到人工神经元在讨论人造神经元之前，让我们快速看一下生物神经元，如下图所示。它

02

PyTorch进阶之路（三）：使用logistic回归实现图像分类

在本教程中，我们将使用我们已有的关于 PyTorch 和线性回归的知识来求解一类非常不同的问题：图像分类。我们将使用著名的 MNIST 手写数字数据库作为我们的训练数据集。其中含有 28×28 像素的灰度手写数字图像（0 到 9），并且每张图像都带有指示该图像的数字的标签。下面是一些来自该数据集的样本：

03

老虎斑马“杂交”长啥样？CVPR19论文提出纹理混合器，不同花纹实现丝滑过渡 | 开源

来自马里兰大学、马克斯·普朗克信息学研究所、Adobe的研究人员提出了一种新型纹理混合器Texture Mixer。

03

为什么MobileNet及其变体如此之快？

在解释特定的高效 CNN 模型之前，我们先检查一下高效 CNN 模型中组成模块的计算成本，然后看一下卷积是如何在空间和通道中执行的。

02

keras 自定义loss损失函数,sample在loss上的加权和metric详解

1. loss是整体网络进行优化的目标，是需要参与到优化运算，更新权值W的过程的

02

谷歌大脑新算法，不折腾TPU就能加快AI训练速度

GPU和像谷歌TPU这样的硬件加速器大大加快了神经网络的训练速度，推助AI迅速成长，在各个领域发挥超能力。

02

为什么我们一定要用随机权重初始化神经网络

必须将人工神经网络的权重初始化为小的随机数。这是因为这是用于训练模型的随机优化算法的期望，即随机梯度下降。

03

动手学DL——深度学习预备知识随笔【深度学习】【PyTorch】

多加一个括号，结果都是一致的，都是表示二维张量，张量形状都是（4，9），所以二维有两种写法，但再加一层括号，形状就变成了(1,4,9)三维，判断维数技巧：最外面的括号去掉开始数，比如：

02

ImageDataGenerator

这个类是做什么用的？通过实时数据增强生成张量图像数据批次，并且可以循环迭代，我们知道在Keras中，当数据量很多的时候我们需要使用model.fit_generator()方法，该方法接受的第一个参数就是一个生成器。简单来说就是：ImageDataGenerator()是keras.preprocessing.image模块中的图片生成器，可以每一次给模型“喂”一个batch_size大小的样本数据，同时也可以在每一个批次中对这batch_size个样本数据进行增强，扩充数据集大小，增强模型的泛化能力。比如进行旋转，变形，归一化等等。

02

显著提升图像识别网络效率，Facebook提出IdleBlock混合组成方法

近年来，卷积神经网络（CNN）已经主宰了计算机视觉领域。自 AlexNet 诞生以来，计算机视觉社区已经找到了一些能够改进 CNN 的设计，让这种骨干网络变得更加强大和高效，其中比较出色的单个分支网络包括 Network in Network、VGGNet、ResNet、DenseNet、ResNext、MobileNet v1/v2/v3 和 ShuffleNet v1/v2。近年来同样吸引了研究社区关注的还有多分辨率骨干网络。为了能够实现多分辨率学习，研究者设计出了模块内复杂的连接来处理不同分辨率之间的信息交换。能够有效实现这种方法的例子有 MultiGrid-Conv、OctaveConv 和 HRNet。这些方法在推动骨干网络的设计思想方面做出了巨大的贡献。

02

显著提升图像识别网络效率，Facebook提出IdleBlock混合组成方法

Facebook AI 近日一项研究提出了一种新的卷积模块 IdleBlock 以及使用该模块的混合组成（HC）方法。实验表明这种简洁的新方法不仅能显著提升网络效率，而且还超过绝大多数神经网络结构搜索的工作，在同等计算成本下取得了 SOTA 表现，相信这项研究能给图像识别网络的开发、神经网络结构搜索甚至其他领域网络设计思路带来一些新的启迪。

02

显著提升图像识别网络效率，Facebook提出IdleBlock混合组成方法

作者：Bing Xu、Andrew Tulloch、Yunpeng Chen、Xiaomeng Yang、Lin Qiao

01

TensorFlow 2.0 的新增功能：第一、二部分

本书的这一部分将为您简要概述 TensorFlow 2.0 中的新增功能，与 TensorFlow 1.x 的比较，惰性求值和急切执行之间的差异，架构级别的更改以及关于tf.keras和Estimator的 API 使用情况。

01

hadoop中的一些概念——数据流

数据流　　首先定义一些属于。MapReduce作业（job）是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务，map任务和reduce任务。　　有两类节点控制着作业执行过程，：一个jobtracker以及一系列tasktracker。jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时，将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以再另外衣tasktracker节点上重新调度该任务。　　Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。　　拥有许多分片，意味着处理每个分片所需要的时间少于处理整个输入数据所花的时间。因此，如果我们并行处理每个分片，且每个分片数据比较小，那么整个处理过程将获得更好的负载平衡，因为一台较快的计算机能够处理的数据分片比一台较慢的计算机更多，且成一定比例。即使使用相同的机器，处理失败的作业或其他同时运行的作业也能够实现负载平衡，并且如果分片被切分的更细，负载平衡的质量会更好。　　另一方面，如果分片切分的太小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是64MB，不过可以针对集群调整这个默认值，在新建所有文件或新建每个文件时具体致死那个即可。　　Hadoop在存储有输入数据（Hdfs中的数据）的节点上运行map任务，可以获得最佳性能。这就是所谓的数据本地化优化。现在我们应该清楚为什么最佳分片大小应该与块大小相同：因为它是确保可以存储在单个节点上的最大输入块的大小。如果分片跨越这两个数据块，那么对于任何一个HDFS节点，基本上不可能同时存储这两个数据块，因此分片中的部分数据需要通过网络传输到map任务节点。与使用本地数据运行整个map任务相比，这种方法显然效率更低。　　map任务将其输出写入本地硬盘，而非HDFS，这是为什么？因为map的输出是中间结果：该中间结果由reduce任务处理后才能产生最终输出结果，而且一旦作业完成，map的输出结果可以被删除。因此，如果把它存储在HDFS中并实现备份，难免有些小题大做。如果该节点上运行的map任务在将map中间结果传送给reduece任务之前失败，Hadoop将在另一个节点上重新运行这个map任务以再次构建map中间结果。　　reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有mapper的输出。在下面的李宗中，我们仅有一个reduce任务，其输入是所有map任务的输出。因此，排过序的map输出需要通过网络传输发送到运行reduce任务的节点。数据在reduce端合并，然后由用户定义的reduce函数处理。reduce的输出通常存储在HDFS中以实现可靠存储。对于每个reduce输出的HDFS块，第一个副本存储在本地节点上，其他副本存储在其他机架节点中。因此，reduce的输出写入HDFS确实需要占用网络带宽，但这与正常的HDFS流水线写入的消耗一样。　　一个reduce任务的完成数据流如下：虚线框表示节点，虚线箭头表示节点内部数据传输，实线箭头表示节点之间的数据传输。

02

RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层！

鉴于高发病率和死亡率，脑肿瘤是全球健康关注的重点问题。通过利用深度学习算法等最先进技术，自动化检测技术可以有效解决脑肿瘤识别的挑战。将自动化检测融入医疗流程，有望通过革新脑肿瘤的管理方式显著提高患者疗效和医疗服务，尤其是随着技术的发展。最先进的目标检测方法YOLO在估算每个网格单元的类别概率和边界框时，将输入图像划分为网格。

01

『论文阅读』Understanding deep learning requires rethinking generalization

虽然其规模巨大，但成功的深层人工神经网络可以获得训练和测试集非常小的性能差异。传统知识认为这种小的泛化误差归功于模型的性能，或者是由于在训练的时候加入了正则化技术。通过广泛的系统实验，我们展示了这些传统方法如何不能解释，而为什么大型神经网络能在实践中推广。具体来说，实验建立了用随机梯度方法训练的图像分类的最先进的卷积网络，能容易地拟合训练数据的随机标记。这种现象在质量上不受显式正则化的影响，即使我们用完全非结构化的随机噪声替换真实图像，也会发生这种现象。我们用理论结构证实了这些实验结果，表明简单的深度两个神经网络一旦参数数量超过了实际数据点的数量，就已经具有完美的有限样本表达能力。论文通过与传统模型的比较来解释我们的实验结果。

03

26秒训练ResNet，用这些技巧一步步压缩时间，Jeff Dean都称赞：干得漂亮

现在，谷歌AI掌门人Jeff Dean转发推荐了一个训练ResNet的奇技淫巧大礼包，跟着它一步一步实施，训练9层ResNet时，不仅不需要增加GPU的数量，甚至只需要1/8的GPU，就能让训练速度加快到原来的2.5倍，模型在CIFAR10上还能达到94%的准确率。

03

一文理解PyTorch：附代码实例

最近在学习Pytorch，对于每个部分有大致了解，但没有整体的逻辑框架，这篇文章虽然是翻译的，但有条理的带大家认识了Pytorch构建模型并进行训练的一般步骤和流程，一步一步的将用Numpy搭建的逻辑回归模型来通过Pytorch进行高效实现并训练，其中不乏介绍一些基本模块，比如数据加载器，模型构建基类，优化器等知识，值得一看。

02

关于深度学习系列笔记四（张量、批量、Dense）

关于张量、张量运算、批量、梯度优化、随机梯度下降这几个概念和Dense的一些参数，简单而又难以理解的几个名词，花了几天时间才看了个七七八八，尤其是Dense的输入输出参数、权重和偏置向量是如何发挥作用的。

02

[Deep-Learning-with-Python]神经网络的数学基础

理解深度学习需要熟悉一些简单的数学概念：Tensors(张量)、Tensor operations 张量操作、differentiation微分、gradient descent 梯度下降等等。

05

从零开始学PyTorch：一文学会线性回归、逻辑回归及图像分类

文章超长，秉承用代码搞定一切的原则，内含大量代码，建议收藏，并分享给你喜欢的人。同时如果有什么疑问，也欢迎留言告知我们。

04

从零开始学PyTorch：一文学会线性回归、逻辑回归及图像分类

文章超长，秉承用代码搞定一切的原则，内含大量代码，建议收藏，并分享给你喜欢的人。同时如果有什么疑问，也欢迎留言告知我们。

03

最牛X中文开源DIT腾讯混元大模型Comfyui全体验

各位有商业想法的可以抢一杯羹了，这应该是首个开源的Sora同架构DiT架构文生图开源模型！！！！从参数量上远超开源的Stable Diffusion模型，这远比某些开源代码仓库为空的公司强多了，而细数下来，腾讯在T2I领域开源的产品多达几十种， TencentAIlab

08

深度学习-数学基础

神经网络是由一个个层组合而成，每个层都会对输入进行添加权重，对于计算开始时间，神经网络会给出一个初始化的值，然后进行不断优化，也叫训练，每一次优化叫作一次训练过程

01

PyTorch专栏（四）：小试牛刀

【磐创AI 导读】：本篇文章讲解了PyTorch专栏的第三章中的PyTorch小试牛刀。查看专栏历史文章，请点击下方蓝色字体进入相应链接阅读。查看关于本专栏的介绍：PyTorch专栏开篇。想要更多电子杂志的机器学习，深度学习资源，大家欢迎点击上方蓝字关注我们的公众号：磐创AI。

03

为了加速在GPU上进行深度学习训练，NVIDIA原来还做了这么多事情，你都知道么?

不同行业采用人工智能的速度取决于最大化数据科学家的生产力。NVIDIA每个月都会发布优化的NGC容器，为深度学习框架和库提供更好的性能，帮助科学家最大限度地发挥他们的潜力。英伟达持续投资于完整的数据科学栈，包括GPU架构、系统和软件栈。这种整体的方法为深度学习模型培训提供了最好的性能，NVIDIA赢得了提交给MLPerf的所有六个基准测试，这是第一个全行业的AI基准测试。NVIDIA在最近几年引入了几代新的GPU架构，最终在Volta和图灵GPU上实现了张量核心架构，其中包括对混合精度计算的本机支持。NVIDIA在MXNet和PyTorch框架上完成了这些记录，展示了NVIDIA 平台的多功能性。

04

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst

本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中，我们大多是以 PyTorch 为例，结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界（系列）都是不完美的，不单单因为 TensorFlow 本身的影响力，更因为 TensorFlow 分布式有自己的鲜明特色，对于技术爱好者来说是一个巨大宝藏。

02

GPU捉襟见肘还想训练大批量模型？谁说不可以

2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型（如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型）还是馈入 3000 万个元素输入的元学习神经网络（如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型），我都只能在 GPU 上处理很少的训练样本。

03

如何在Python和numpy中生成随机数

随机性的使用是机器学习算法配置和评估的重要部分。从神经网络中的权重的随机初始化，到将数据分成随机的训练和测试集，再到随机梯度下降中的训练数据集的随机混洗（random shuffling），生成随机数和利用随机性是必需掌握的技能。

03

学界 | 谷歌开发全新监督学习模型区分讲话者声音，准确率达92.4％

AI 科技评论消息，将含有多人语音的音频流分割为与每个人相关联的同类片段的过程，是语音识别系统的重要部分。通过解决“谁在讲话”的问题，区分讲话者的能力可以应用于许多重要场景，例如理解医疗对话和视频字幕等。

03

「人工智能研学社· ML系统与架构小组」第一期：如何在单块GPU上训练超大型深度学习模型

机器之心原创人工智能研学社问题：GPU 内存限制 GPU 在深度神经网络训练之中的强大表现无需我赘言。通过现在流行的深度学习框架将计算分配给 GPU 来执行，要比自己从头开始便捷很多。然而，有一件事你会避之唯恐不及，即 GPU 的动态随机存取内存（DRAM（Dynamic Random Access Memory））限制。在给定模型和批量大小的情况下，事实上你可以计算出训练所需的 GPU 内存而无需实际运行它。例如，使用 128 的批量训练 AlexNet 需要 1.1GB 的全局内存，而这仅是 5

09

学界 | 深度神经网络的分布式训练概述：常用方法和技巧全面总结

深度学习已经为人工智能领域带来了巨大的发展进步。但是，必须说明训练深度学习模型需要显著大量的计算。在一台具有一个现代 GPU 的单台机器上完成一次基于 ImageNet 等基准数据集的训练可能要耗费多达一周的时间，研究者已经观察到在多台机器上的分布式训练能极大减少训练时间。近期的研究已经通过使用 2048 个 GPU 的集群将 ImageNet 训练时间降低至了 4 分钟。这篇论文总结了各种用于分布式训练的算法和技术，并给出了用于现代分布式训练框架的当前最佳方法。更具体而言，我们探索了分布式随机梯度下降的同步和异步变体、各种 All Reduce 梯度聚合策略以及用于在集群上实现更高吞吐量和更低延迟的最佳实践，比如混合精度训练、大批量训练和梯度压缩。

02

PyTorch 深度学习实用指南：1~5

目前，有数十种深度学习框架可以解决 GPU 上的任何种类的深度学习问题，那么为什么我们还需要一个呢？本书是对这一百万美元问题的解答。 PyTorch 进入了深度学习家族，并有望成为 GPU 上的 NumPy。自加入以来，社区一直在努力兑现这一承诺。如官方文档所述，PyTorch 是针对使用 GPU 和 CPU 进行深度学习的优化张量库。尽管所有著名的框架都提供相同的功能，但 PyTorch 相对于几乎所有框架都具有某些优势。

01

谷歌开发者机器学习词汇表：纵览机器学习基本词汇与概念

选自Google Developers 机器之心编译机器之心曾开放过人工智能术语集，该术语库项目目前收集了人工智能领域 700 多个专业术语，但仍需要与各位读者共同完善与修正。本文编译自谷歌开发者机器学习术语表项目，介绍了该项目所有的术语与基本解释。之后，我们也将表内术语更新到了机器之心 GitHub 项目中。机器之心人工智能术语项目：https://github.com/jiqizhixin/Artificial-Intelligence-Terminology A 准确率（accuracy）分类

在pytorch中停止梯度流的若干办法，避免不必要模块的参数更新

为什么我们要控制梯度流？这个答案有很多个，但是都可以归结为避免不需要更新的模型模块被参数更新。我们在深度模型训练过程中，很可能存在多个loss，比如GAN对抗生成网络，存在G_loss和D_loss，通常来说，我们通过D_loss只希望更新判别器(Discriminator)，而生成网络(Generator)并不需要，也不能被更新；生成网络只在通过G_loss学习的情况下，才能被更新。这个时候，如果我们不控制梯度流，那么我们在训练D_loss的时候，我们的前端网络Generator和CNN难免也会被一起训练，这个是我们不期望发生的。

04

开发者必看：超全机器学习术语词汇表！

来源：机器之心本文长度为12243字，建议阅读8分钟本文编译自谷歌开发者机器学习术语表项目，介绍了该项目所有的术语与基本解释。 A 准确率（accuracy）分类模型预测准确的比例。在多类别分类中，准确率定义如下：在二分类中，准确率定义为：激活函数（Activation function）一种函数（例如 ReLU 或 Sigmoid），将前一层所有神经元激活值的加权和输入到一个非线性函数中，然后向下一层传递该函数的输出值（典型的非线性）。 AdaGrad 一种复杂的梯度下降算法，重新

06

福利 | 纵览机器学习基本词汇与概念

机器之心曾开放过人工智能术语集，该术语库项目目前收集了人工智能领域 700 多个专业术语，但仍需要与各位读者共同完善与修正。本文编译自谷歌开发者机器学习术语表项目，介绍了该项目所有的术语与基本解释。之后，我们也将表内术语更新到了机器之心 GitHub 项目中。机器之心人工智能术语项目：https://github.com/jiqizhixin/Artificial-Intelligence-Terminology A 准确率（accuracy）分类模型预测准确的比例。在多类别分类中，准确率定义如下：

09

【译】A Deep-Dive into Flink's Network Stack（1）

Flink的网络堆栈是组成flink-runtime模块的核心组件之一，是每个Flink工作的核心。它连接所有TaskManagers的各个工作单元（子任务）。这是您的流式传输数据流经的地方，因此，对于吞吐量和您观察到的延迟，Flink作业的性能至关重要。与通过Akka使用RPC的TaskManagers和JobManagers之间的协调通道相比，TaskManagers之间的网络堆栈依赖于使用Netty的低得多的API。

04

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 Implementation of Control Flow in TensorFlow。

01

NeurIPS顶会接收，PyTorch官方论文首次曝光完整设计思路

论文地址：https://papers.nips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf

02

机器学习基础

请记住，在本章中讨论的大多数技术都是机器学习和深度学习通用的，一部分用于解决过拟合问题的技术（如dropout）除外。

03

卷积神经网络学习路线（十九） | 旷世科技 2017 ShuffleNetV1

这是卷积神经网络学习路线的第19篇文章，主要为大家介绍一下旷世科技在2017年发表的ShuffleNet V1，和MobileNet V1/V2一样，也是一个轻量级的卷积神经网络，专用于计算力受限的移动设备。新的架构利用两个操作：逐点组卷积(pointwise group convolution)和通道混洗(channel shuffle)，与现有的其他SOTA模型相比，在保证精度的同时大大降低了计算量。ShuffleNet V1在ImageNet和MS COCO上表现出了比其他SOTA模型更好的性能。论文原文见附录。

02

牛X 腾讯开源首个Sora同架构混元文生图大模型

各位有商业想法的可以抢一杯羹了，这应该是首个开源的Sora同架构DiT架构文生图开源模型！！！！从参数量上远超开源的Stable Diffusion模型，这远比某些开源代码仓库为空的公司强多了，而细数下来，腾讯在T2I领域开源的产品多达几十种， TencentAIlab

01

[论文翻译] 分布式训练 Parameter Sharding 之 Google Weight Sharding

本系列会以5～6篇文章，介绍parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google，微软和Facebook的论文，博客以及代码来进行分析。

02

教程 | TensorFlow 官方解读：如何在多系统和网络拓扑中构建高性能模型

选自Tensorflow 机器之心编译参与：黄玉胜、黄小天这个文档和附带的脚本详细介绍了如何构建针对各种系统和网络拓扑的高性能可拓展模型。这个技术在本文档中用了一些低级的 Tensorflow Python 基元。在未来，这些技术将被并入高级 API。输入管道性能指南阐述了如何诊断输入管道可能存在的问题及其最佳解决方法。在使用大量输入和每秒更高的采样处理中我们发现 tf.FIFOQueue 和 tf.train.queue_runner 无法使用当前多个 GPU 生成饱和，例如在使用 AlexNet

如何一步一步使用Pytorch与GPU训练深度神经网络

Pytorch是python的一个目前比较火热的深度学习框架，Pytorch提供在GPU上实现张量和动态神经网络。对于学习深度学习的同学来说，Pytorch你值得拥有。本文将介绍pytorch的核心张量与梯度，以及如何一步一步的使用GPU训练你的第一个深度神经网络。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭