开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

张量流连续文本序列到序列。为什么是batch？

张量流连续文本序列到序列（TensorFlow Sequence-to-Sequence）是一种机器学习模型，用于处理文本序列到序列的任务，例如机器翻译、文本摘要等。在这个模型中，输入和输出都是文本序列。

为什么要使用batch（批处理）呢？

批处理是指一次性处理多个样本的技术，相比逐个处理样本，批处理具有以下优势：

提高计算效率：批处理可以充分利用硬件资源，如GPU的并行计算能力，同时处理多个样本，加快模型训练和推理的速度。
提高模型稳定性：批处理可以减少样本之间的方差，使得模型更加稳定。通过在一个批次中同时处理多个样本，模型可以更好地学习样本之间的共性和规律。
内存利用率高：批处理可以将多个样本一次性加载到内存中，减少数据读取的次数，提高内存利用率。
优化梯度计算：批处理可以通过累积多个样本的梯度，减少梯度计算的频率，提高训练效率。

在张量流连续文本序列到序列任务中，使用批处理可以加快模型的训练速度，提高模型的稳定性，并且更好地利用硬件资源。在TensorFlow中，可以使用tf.data.Dataset来实现批处理，通过设置batch_size参数来指定每个批次的样本数量。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云机器学习平台（https://cloud.tencent.com/product/tensorflow）
腾讯云GPU计算（https://cloud.tencent.com/product/cvm-gpu）
腾讯云数据集成服务（https://cloud.tencent.com/product/dps）
腾讯云数据处理服务（https://cloud.tencent.com/product/dps）
腾讯云弹性计算（https://cloud.tencent.com/product/cvm）

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Text Summarization文本摘要与注意力机制

自动文本摘要是在保持关键信息内容和整体含义的同时，生成简洁流畅的摘要的任务。文本摘要目前大致可以分为抽取式与生成式两种类型：

00

使用Huggingface创建大语言模型RLHF训练流程的完整教程

ChatGPT已经成为家喻户晓的名字，而大语言模型在ChatGPT刺激下也得到了快速发展，这使得我们可以基于这些技术来改进我们的业务。

03

NLP 与 NLU：从语言理解到语言处理

随着人工智能的进步，相关技术变得越来越复杂，我们希望现有的概念能够包容这种变化 - 或者改变自己。同理，在自然语言处理领域中，自然语言处理（NLP）的概念是否会让位于自然语言理解（NLU）？或者两个概念之间的关系是否变得更微妙，更复杂，抑或只是技术的发展？

02

[预训练语言模型专题] BART & MASS 自然语言生成任务上的进步

BART和MASS都是2019年发布的，面向生成任务，基于Transformer神经翻译结构的序列到序列模型。分别由Facebook 和微软亚洲研究院提出。他们都对encoder输入的屏蔽(mask)方式进行了改进，并且在生成任务的效果也都比之前有了不少提升。让我们花10分钟来一起来看看这两个模型吧。两个模型都是以Transformer的神经翻译模型作为基础结构，而Transformer的encoder-decoder结构（图 1）的具体讲解可以参考上一篇文章。

03

学界 | 谷歌联合英伟达重磅论文：实现语音到文本的跨语言转录

选自arxiv 机器之心编译参与：吴攀、李亚洲、蒋思源机器翻译一直是人工智能研究领域的重头戏，自去年谷歌推出了神经机器翻译（GNMT）服务以来，相关技术的研发并没有止步不前，在多语言翻译和 zero-shot 翻译上也取得了引人注目的进展。近日，谷歌大脑和英伟达联合发布的一篇论文《序列到序列模型可以直接转录外语语音（Sequence-to-Sequence Models Can Directly Transcribe Foreign Speech）》将机器翻译这方面的研究又向前推进了一步，实现了从一种语

09

一个简单的更改让PyTorch读取表格数据的速度提高20倍：可大大加快深度学习训练的速度

在训练深度学习模型时，性能至关重要。数据集可能非常庞大，而低效的训练方法意味着迭代速度变慢，超参数优化的时间更少，部署周期更长以及计算成本更高。

03

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》第16章使用RNN和注意力机制进行自然语言处理

自然语言处理的常用方法是循环神经网络。所以接下来会从 character RNN 开始（预测句子中出现的下一个角色），继续介绍RNN，这可以让我们生成一些原生文本，在过程中，我们会学习如何在长序列上创建TensorFlow Dataset。先使用的是无状态RNN（每次迭代中学习文本中的随机部分），然后创建一个有状态RNN（保留训练迭代之间的隐藏态，可以从断点继续，用这种方法学习长规律）。然后，我们会搭建一个RNN，来做情感分析（例如，读取影评，提取评价者对电影的感情），这次是将句子当做词的序列来处理。然后会介绍用RNN如何搭建编码器-解码器架构，来做神经网络机器翻译（NMT）。我们会使用TensorFlow Addons项目中的 seq2seq API 。

02

Python 自然语言处理实用指南：第三部分

在本节中，我们将使用 PyTorch 中可用的各种自然语言处理（NLP）技术来构建各种实际 -使用 PyTorch 的世界应用。情感分析，文本摘要，文本分类以及使用 PyTorch 构建聊天机器人应用是本节将介绍的一些任务。

01

微软研究院开源DialoGPT：「你有什么梦想？」「让世界充满机器人」

DialoGPT 是一种用于对话响应生成的可调节式千兆词级神经网络模型，其训练基于 Reddit 数据。该研究成果的源代码已经开源，另外他们也发布了一个大规模预训练模型。

03

无所不能的Embedding7 - 探索通用文本表达[FastSent/InferSent/GenSen/USE]

在4/5章我们讨论过用skip-thought，quick-thought任务来进行通用文本向量提取，当时就有一个疑问为什么用Bookcorpus这种连续文本，通过预测前一个和后一个句子的方式得到的文本向量，能在下游任务里取得比较好的效果呢？这一章我们来聊聊都有哪些SOTA通用文本框架，或许直接使用它们的场景已经不多，但你依旧能在各个前沿方法中看到它们的影子。我们会主要聊聊以下内容

02

LLM主要类别架构

💫LLM分类一般分为三种：自编码模型（encoder）、自回归模型(decoder)和序列到序列模型(encoder-decoder)。

01

来聊聊 DOM 中的Node、Element、Text

1所表示的ELEMENT_NODE 很常见，我们平时用的 div 等标签，其类型都是 ELEMENT_NODE。

00

深度学习快速参考：11~13

在上一章中，我们讨论了文档分类以及文档分类的一种特殊情况，称为情感分类。这样做时，我们不得不谈论很多关于向量化的知识。

02

免费科研利器！Meta祭出Nougat，PDF格式转换，公式表格精准识别，扫描版文档也可以

近来，Meta AI研究人员推出一款OCR神器Nougat，能够分分钟把PDF转换为MultiMarkdown。

02

《Scikit-Learn与TensorFlow机器学习实用指南》第14章循环神经网络

击球手击出垒球，你会开始预测球的轨迹并立即开始奔跑。你追踪着它，不断调整你的移动步伐，最终在观众的掌声中抓到它。无论是在听完朋友的话语还是早餐时预测咖啡的味道，你时刻在做的事就是在预测未来。在本章中，我们将讨论循环神经网络 -- 一类预测未来的网络（当然，是到目前为止）。它们可以分析时间序列数据，诸如股票价格，并告诉你什么时候买入和卖出。在自动驾驶系统中，他们可以预测行车轨迹，避免发生交通意外。更一般地说，它们可在任意长度的序列上工作，而不是截止目前我们讨论的只能在固定长度的输入上工作的网络。举个例子，它们可以把语句，文件，以及语音范本作为输入，使得它们在诸如自动翻译，语音到文本或者情感分析（例如，读取电影评论并提取评论者关于该电影的感觉）的自然语言处理系统中极为有用。

02

Excel 中的计算运算符和优先顺序

https://support.microsoft.com/zh-cn/office/excel-%E4%B8%AD%E7%9A%84%E8%AE%A1%E7%AE%97%E8%BF%90%E7%AE%97%E7%AC%A6%E5%92%8C%E4%BC%98%E5%85%88%E9%A1%BA%E5%BA%8F-48be406d-4975-4d31-b2b8-7af9e0e2878a

03

TensorFlow 自动句子语义编码，谷歌开源机器学习模型 Skip-Thoughts

【新智元导读】谷歌今天开源一个句子编码器模型 Skip-Thoughts，在 TensorFlow 上实现，学习将输入的句子编码成固定维度的向量表示，可以用于语义相关性，释义检测，句子情绪分类等任务。 Skip-Thoughts 模型概要 Skip-Thoughts 模型是一个句子编码器。它学习将输入的句子编码成固定维度的向量表示，这些向量表示能够对许多任务有用，例如检测释义，或对产品评论进行积极或消极的分类等等。有关模型架构和更多示例应用的详细信息，可以参阅Ryan Kiros 等人的 NIPS 论文

03

Transformers 4.37 中文文档（九十六）

VipLlava 模型是由 Mu Cai、Haotian Liu、Siva Karthik Mustikovela、Gregory P. Meyer、Yuning Chai、Dennis Park、Yong Jae Lee 在《Making Large Multimodal Models Understand Arbitrary Visual Prompts》中提出的。

01

Transformers 4.37 中文文档（七十六）

MMS 模型是由 Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau、Michael Auli 在将语音技术扩展到 1000 多种语言中提出的。

01

Transformers 4.37 中文文档（九十四）

SpeechEncoderDecoderModel 可用于使用任何预训练语音自编码模型作为编码器（例如 Wav2Vec2，Hubert）和任何预训练自回归模型作为解码器初始化语音到文本模型。

01

设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术

设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术（如Prompt Engineering、P-Tuning v2、LoRA）的面试题目，旨在评估应聘者对这些模型架构的理解、微调方法的掌握程度以及在实际应用中的问题解决能力。以下是一套综合性的面试题设计方案：

02

Transformers 4.37 中文文档（十六）

所有模型的输出都是 ModelOutput 的子类实例。这些是包含模型返回的所有信息的数据结构，但也可以用作元组或字典。

01

Transformers 4.37 中文文档（三十一）

EncoderDecoderModel 可以用于初始化一个序列到序列模型，其中预训练的自编码模型作为编码器，预训练的自回归模型作为解码器。

01

基于PyTorch深度学习框架的序列图像数据装载器

如今，深度学习和机器学习算法正在统治世界。PyTorch是最常用的深度学习框架之一，用于实现各种深度学习算法。另一方面，基于学习的方法本质上需要一些带注释的训练数据集，这些数据集可以被模型用来提取输入数据和标签之间的关系。为了给神经网络提供数据，我们定义了一个数据加载器。

02

Transformers 4.37 中文文档（七十七）

SeamlessM4T-v2 模型是由 Meta AI 的 Seamless Communication 团队在Seamless: Multilingual Expressive and Streaming Speech Translation中提出的。

01

终极「揭秘」：GPT-4模型架构、训练成本、数据集信息都被扒出来了

一直以来，大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。

04

Transformers 4.37 中文文档（五十九）

SwitchTransformers 模型是由 William Fedus、Barret Zoph 和 Noam Shazeer 在Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity中提出的。

01

Transformers 4.37 中文文档（三十九）

Jukebox 模型在 Jukebox: A generative model for music 中由 Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever 提出。它引入了一个生成音乐模型，可以生成可以根据艺术家、流派和歌词进行条件化的一分钟长样本。

01

复述（paraphrasing）：一种简单暴力的预训练方式

Mike Lewis, Marjan Ghazvininejad, Gargi Ghosh, Armen Aghajanyan, Sida Wang, Luke Zettlemoyer

02

Transformers 4.37 中文文档（四十三）

MBart 模型是由 Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis、Luke Zettlemoyer 在多语言去噪预训练神经机器翻译中提出的。

01

BERT 原理解析

本文是对 BERT 原始论文（BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ）的解读。

02

[Deep-Learning-with-Python] 文本序列中的深度学习

深度学习模型可以处理文本序列、时间序列、一般性序列数据等等。处理序列数据的两个基本深度学习算法是循环神经网络和1D卷积(2D卷积的一维模式)。

01

ApacheCN 深度学习译文集 20210125 更新

新增了七个教程： PyTorch 中文官方教程 1.7 学习 PyTorch PyTorch 深度学习：60 分钟的突击张量 torch.autograd的简要介绍神经网络训练分类器通过示例学习 PyTorch 热身：NumPy PyTorch：张量 PyTorch：张量和 Autograd PyTorch：定义新的 Autograd 函数 PyTorch：nn PyTorch：optim PyTorch：自定义nn模块 PyTorch：控制流 + 权重共享 torch.nn到底是什么？使

02

Transformers 4.37 中文文档（六十）

T5v1.1 是由 Colin Raffel 等人在google-research/text-to-text-transfer-transformer存储库中发布的。这是原始 T5 模型的改进版本。这个模型是由patrickvonplaten贡献的。原始代码可以在这里找到。

01

PyTorch入门笔记-基本数据类型

本小节主要介绍 PyTorch 中的基本数据类型，先来看看 Python 和 PyTorch 中基本数据类型的对比。

02

Transformers 4.37 中文文档（七十八）

Speech2Text2 模型与 Wav2Vec2 一起用于大规模自监督和半监督学习的语音翻译中提出的语音翻译模型，作者为 Changhan Wang，Anne Wu，Juan Pino，Alexei Baevski，Michael Auli，Alexis Conneau。

01

Transformers 4.37 中文文档（四十二）

M2M100 模型是由 Angela Fan、Shruti Bhosale、Holger Schwenk、Zhiyi Ma、Ahmed El-Kishky、Siddharth Goyal、Mandeep Baines、Onur Celebi、Guillaume Wenzek、Vishrav Chaudhary、Naman Goyal、Tom Birch、Vitaliy Liptchinsky、Sergey Edunov、Edouard Grave、Michael Auli、Armand Joulin 在 Beyond English-Centric Multilingual Machine Translation 中提出的。

01

从头开始了解Transformer

编者按：自2017年提出以来，Transformer在众多自然语言处理问题中取得了非常好的效果。它不但训练速度更快，而且更适合建模长距离依赖关系，因此大有取代循环或卷积神经网络，一统自然语言处理的深度模型江湖之势。我们（赛尔公众号）曾于去年底翻译了哈佛大学Alexander Rush教授撰写的《Transformer注解及PyTorch实现》一文，并获得了广泛关注。近期，来自荷兰阿姆斯特丹大学的Peter Bloem博士发表博文，从零基础开始，深入浅出的介绍了Transformer模型，并配以PyTorch的代码实现。我非常喜欢其中对Self-attention（Transformer的核心组件）工作基本原理进行解释的例子。此外，该文还介绍了最新的Transformer-XL、Sparse Transformer等模型，以及基于Transformer的BERT和GPT-2等预训练模型。我们将其翻译为中文，希望能帮助各位对Transformer感兴趣，并想了解其最新进展的读者。

03

Transformers 4.37 中文文档（八十一）

Whisper 模型由 Alec Radford、Jong Wook Kim、Tao Xu、Greg Brockman、Christine McLeavey、Ilya Sutskever 在通过大规模弱监督实现稳健语音识别中提出。

01

Transformers 4.37 中文文档（五十一）

PEGASUS-X 模型由 Jason Phang、Yao Zhao 和 Peter J. Liu 在 Investigating Efficiently Extending Transformers for Long Input Summarization 中提出。

01

PyTorch 2.2 中文官方教程（六）

此教程已移至pytorch.org/audio/stable/tutorials/audio_io_tutorial.html

01

PyTorch:Bi-LSTM的文本生成

本博客的目的是解释如何通过实现基于LSTMs的强大体系结构来构建文本生成的端到端模型。

02

Transformers 4.37 中文文档（二十二）

BARThez 模型是由 Moussa Kamal Eddine、Antoine J.-P. Tixier 和 Michalis Vazirgiannis 于 2020 年 10 月 23 日提出的BARThez: a Skilled Pretrained French Sequence-to-Sequence Model。

01

Transformers 4.37 中文文档（八十九）

LayoutLMv3 模型由 Yupan Huang、Tengchao Lv、Lei Cui、Yutong Lu、Furu Wei 在LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking中提出。LayoutLMv3 通过使用补丁嵌入（如 ViT 中的方式）简化了 LayoutLMv2，并在 3 个目标上对模型进行了预训练：掩码语言建模（MLM）、掩码图像建模（MIM）和单词-补丁对齐（WPA）。

01

聊天机器人实战教程 | PyTorch专栏

在本教程中，我们探索一个好玩有趣的循环的序列到序列（sequence-to-sequence）的模型用例。我们将用Cornell Movie-Dialogs Corpus处的电影剧本来训练一个简单的聊天机器人。

02

R语言中的keras

Keras是一个高层神经网络API，由纯Python编写而成。此API支持相同的代码无缝跑在CPU或GPU上；对用户友好，易于快速prototype深度学习模型；支持计算机视觉中的卷积网络、序列处理中的循环网络，也支持两种网络的任意组合；支持任意网络架构：多段输入或多段输出模型、层共享、模型共享等。这意味着Keras 本质上适合用于构建任意深度学习模型（从记忆网络到神经图灵机）兼容多种运行后端，例如TensorFlow、CNTK和Theano。

04

FastAI 之书（面向程序员的 FastAI）（五）

在第一章中，我们看到深度学习可以用于处理自然语言数据集并取得出色的结果。我们的示例依赖于使用预训练的语言模型，并对其进行微调以对评论进行分类。该示例突出了 NLP 和计算机视觉中迁移学习的区别：通常情况下，在 NLP 中，预训练模型是在不同任务上训练的。

01

5 | PyTorch加载真实数据：图像、表格、文本，one-hot

在实际的工作中，常见的机器学习处理的数据大概分成三种，一种是图像数据，图像数据通常是RGB三通道的彩色数据，图像上的每个像素由一个数值表示，这个其实比较容易处理；一种是文本数据，文本数据挖掘就是我们通常说的自然语言处理，文本数据首先是非结构化的，同时我们需要把文本数据表示成数值，这得花一些功夫；还有一种就是结构化的数据，结构化数据比如说一张excel数据表，每一列代表一个特征，具体到它的值可能是数值也可能是文本，可能是连续的也可能是非连续的，这种数据我们也需要进行转化，但是通常来说比自然语言好处理一点。

02

【序列到序列学习】使用Scheduled Sampling改善翻译质量

生成古诗词序列到序列学习实现两个甚至是多个不定长模型之间的映射，有着广泛的应用，包括：机器翻译、智能对话与问答、广告创意语料生成、自动编码（如金融画像编码）、判断多个文本串之间的语义相关性等。在序列到序列学习任务中，我们首先以机器翻译任务为例，提供了多种改进模型供大家学习和使用。包括：不带注意力机制的序列到序列映射模型，这一模型是所有序列到序列学习模型的基础；使用Scheduled Sampling改善RNN模型在生成任务中的错误累积问题；带外部记忆机制的神经机器翻译，通过增强神经网络的记忆能力，来完

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭