build_vocab()到底是做什么的？_云主机到底是做什么的_‘`flock -u`到底是做什么的？ - 腾讯云开发者社区

Torchtext 是一个非常强有力的库，她可以帮助我们解决文本的预处理问题。为了能够更好的利用这个工具，我们需要知道她可以做什么，不可以做什么，也要将每个API和其我们想要的做的事情联系起来。另外一个值得夸赞的一点是，Torchtext 不仅可以和 pytorch 一起用，还可以和其它深度学习框架(tf,mxnet,…)。

动手学深度学习(十三) NLP机器翻译

机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

您找到你想要的搜索结果了吗？

是的

没有找到

ptb_reader源码解析

DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数

DOC2VEC:所涉及的参数 class gensim.models.doc2vec.Doc2Vec(documents=None, dm_mean=None, dm=1, dbow_words=0, dm_concat=0, dm_tag_count=1, docvecs=None, docvecs_mapfile=None, comment=None, trim_rule=None, **kwargs) Bases: gensim.models.word2vec.Word2Vec Class for training, using and evaluating neural networks described in http://arxiv.org/pdf/1405.4053v2.pdf Initialize the model from an iterable of documents. Each document is a TaggedDocument object that will be used for training. The documents iterable can be simply a list of TaggedDocument elements, but for larger corpora, consider an iterable that streams the documents directly from disk/network. If you don’t supply documents, the model is left uninitialized – use if you plan to initialize it in some other way. dm defines the training algorithm. By default (dm=1), ‘distributed memory’ (PV-DM) is used. Otherwise, distributed bag of words (PV-DBOW) is employed. Dm：训练算法：默认为1，指DM；dm=0,则使用DBOW。 size is the dimensionality of the feature vectors. · size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 window is the maximum distance between the predicted word and context words used for prediction within a document. window：窗口大小，表示当前词与预测词在一个句子中的最大距离是多少。 alpha is the initial learning rate (will linearly drop to min_alpha as training progresses). alpha: 是初始的学习速率，在训练过程中会线性地递减到min_alpha。

使用TensorFlow训练循环神经网络语言模型

读了将近一个下午的TensorFlow Recurrent Neural Network教程，翻看其在PTB上的实现，感觉晦涩难懂，因此参考了部分代码，自己写了一个简化版的Language Model，思路借鉴了Keras的LSTM text generation。

DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数

基于PyTorch深度学习框架的序列图像数据装载器

如今，深度学习和机器学习算法正在统治世界。PyTorch是最常用的深度学习框架之一，用于实现各种深度学习算法。另一方面，基于学习的方法本质上需要一些带注释的训练数据集，这些数据集可以被模型用来提取输入数据和标签之间的关系。为了给神经网络提供数据，我们定义了一个数据加载器。

CNN-RNN中文文本分类，基于TensorFlow 实现

http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/

极简使用︱Gemsim-FastText 词向量训练以及OOV（out-of-word）问题有效解决

CNN中文文本分类-基于TensorFlow实现

基于CNN的文本分类问题已经有了一定的研究成果，CNN做句子分类的论文可以参看: Convolutional Neural Networks for Sentence Classification。

【Github】GPT2-Chinese：中文的GPT2训练代码

Chinese version of GPT2 training code, using BERT tokenizer.

【Github】GPT2-Chinese：中文的GPT2训练代码

Chinese version of GPT2 training code, using BERT tokenizer.

长文实践 | 详述文文本生成任务之营销文本生成

每天给你送来NLP技术干货！ ---- 编辑：AI算法小喵写在前面在《一文详解生成式文本摘要经典论文Pointer-Generator》中，我们已经详细地介绍过长文本摘要模型 PGN+Coverage。这个工作小喵20年初的时候不仅研读了，同时也做了相关的复现与优化尝试，没记错的话当时用的是TF框架。碍于年代久远，当时也没有做笔记的习惯，所以没法跟大家分享相关的实践内容。不过，小喵最近发现了一篇与之相关实践类博文，作者将 PGN+Coverage 用在营销文本生成任务上。整个实验与代码实现写的非常详细

如何用Android Studio查看build.gradle源码

上一篇博客里讲过 build.gradle 里的每一行代码基本都是在调用一个方法，既然是这样，我们就可以用 android studio(下面简称as) 去查看它源码的方法注释说明，这样就可以理解每个方法是做什么的了，就算是在大神的 build.gradle 遇见一些没看懂的代码，也可以点进去看方法介绍来理解。就像我们在查看 SDK 里的各种方法一样。

010

Github美化-Travis与Codecov入门

【技术】使用深度学习自动为图像添加字幕（PyTorch）

深度学习现在发展十分迅猛，每天都会出现多种应用程序。而想要了解深度学习的最好方法就是亲自动手。尽可能尝试自己做项目。这将帮助你更深入地了解它们，并帮助你成为更好的深度学习实践者。

用Keras LSTM构建编码器-解码器模型

本文是关于如何使用Python和Keras开发一个编解码器模型的实用教程，更精确地说是一个序列到序列（Seq2Seq）。在上一个教程中，我们开发了一个多对多翻译模型，如下图所示：

人工智能—法庭智能口译（口译实时翻译系统）实战详解

随着全球化进程的不断深化，法庭面临了越来越多来自不同语言和文化背景的当事人，这使得法庭口译工作显得尤为重要。传统的口译方法在效率和准确性方面存在挑战，因此需要一种更先进的、能够实时翻译的系统来满足法庭口译的需求。

韩国小哥哥用Pytorch实现谷歌最强NLP预训练模型BERT | 代码

不仅在SQuAD中摧枯拉朽，全面超越人类表现，还在多种不同NLP测试中创出最佳成绩，包括包括将GLUE基准提升7.6%，将MultiNLI的准确率提提升5.6%。

LLM 入门笔记-Tokenizer

下图展示了完整的 tokenization 流程，接下来会对每个步骤做进一步的介绍。

java开发是什么_java开发到底是做什么的

在互联网迅猛发展的时代，而我们如果对互联网一无所知，那就相当于文盲。所以很多人都想去了解它，去学习他。而作为互联网的产物——java，是一门非常不错的技术，学精通之后，你的未来不会再担心就业。那么下面小编给大家说说java开发到底是做什么的，希望能对你有些帮助。

Signalr系列之虚拟目录详解与应用中的CDN加速实战

本文主要讲解了SignalR如何在项目中进行虚拟目录和CDN加速，以及如何进行JS的优化和动态生成Hubs.js。同时还介绍了如何在开发过程中使用SignalR的小工具来自动生成Hubs.js，以及SignalR的更多高级功能。

动手学深度学习(十四) NLP注意力机制和Seq2seq模型

在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。

聊聊 Service 命名与设计

Service 类到底是什么含义？我相信如果碰到一个叫 SomethingService 的类，没法马上明白它到底起什么作用。

Transformer - 4 - Transformer 的细节

经过之前几篇的实践，当你把这个模型应用到任务当中时，你会发现，这并不能达到论文中所描述的 SOTA 结果。这篇文章中，我们聊一聊那些在论文中一笔带过的 tricks，这些 tricks 让 Transformer 达到了真正的高度。

ChatGLM2 源码解析：`ChatGLMTokenizer`

TensorFlow 机器学习秘籍第二版：9~11

在本章中，我们将介绍循环神经网络（RNN）以及如何在 TensorFlow 中实现它们。我们将首先演示如何使用 RNN 来预测垃圾邮件。然后，我们将介绍一种用于创建莎士比亚文本的 RNN 变体。我们将通过创建 RNN 序列到序列模型来完成从英语到德语的翻译：

权力的游戏使用Tensorflow中的LSTM和Recurrent单元生成剧集脚本

权力的游戏第8季确实令人失望，似乎导演无法学习前几季的模式，但担心的是，LSTM从不会错过任何模式，并会帮助提供一个更好的脚本，一个AI生成的脚本。

图神经网络14-TextGCN:基于图神经网络的文本分类

论文题目：Graph Convolutional Networks for Text Classification 论文地址：https://arxiv.org/pdf/1809.05679.pdf 论文代码：https://github.com/yao8839836/text_gcn 发表时间：AAAI 2019

Llama2.c 学习笔记5： custom tokenizer

Follow新兴热门Github repo最让人兴奋的是：看着它从幼稚朝着成熟（神奇）发展，这个发展很快肉眼可见，神奇如昙花开放，但又在你理解范围之内（当前的知识储备加上搜一搜能够理解每一个修改的目的和神奇）。与之相反的是记忆中的被支配高数课，开课还是有条不紊，捡个笔的功夫再抬头已是二世为人。

深度学习群体行为识别python包_Python应用领域、热门学习包归纳！找到你学习的领域了吗？…

其实迷茫的原因之一，可能就是我们还没有想清楚到底想要通过学习python达到什么目的，python都能做什么，我又需要python帮我做什么。

Word2Vec——使用GloVe训练中文词向量

准备好中文语料：中文语料库，或者使用Leavingseason准备好的语料进行训练：http://pan.baidu.com/s/1jHZCvvo

tensorflow2.3实战循环神经网络

一：理论部分 embedding和变长输入处理序列式问题循环神经网络 LSTM模型原理二：实战 keras实现embedding keras搭建循环神经网络文本生成文本分类 1.1embed

用Python来比较简历和职位匹配度

到了金三银四找工作季。求职者海投了人力市场上的多个职位。资方也收到了很多份简历。那么这里发挥Python的实用性功能，我们用来帮你计算你的简历和哪份岗位匹配度最高。

Dubbo系列-扬帆起航

这篇文章先带着大家来总览全局，一般而言熟悉一个框架你要先知道这玩意是做什么的，能解决什么痛点，核心的模块是什么，大致运转流程是怎样的。

NIO中那些奇怪的Buffer

妖魔鬼怪快快显形，今天F师兄帮助小师妹来斩妖除魔啦，什么BufferB，BufferL，BufferRB，BufferRL，BufferS，BufferU，BufferRS，BufferRU统统给你剖析个清清楚楚明明白白。

强大的 Gensim 库用于 NLP 文本分析

NLP就是处理自然语言，可以是文本、音频和视频。本文将重点了解如何使用文本数据并讨论文本数据的构建块。

厉害了word哥 | 从两张图看红帽最高深的武功 |OpenShift

世上的高手世上高手大约有两种：第一种如下图这为老先生，一辈子纵横江湖数十载，所学武功实用有效，招数简明而力道雄厚，善于“简单粗暴”迅速解决问题。在老爷子的心目中：能用黑虎掏心解决的问题，干啥非要耍

NLP项目实战01--电影评论分类

欢迎来到本篇文章！在这里，我们将探讨一个常见而重要的自然语言处理任务——文本分类。具体而言，我们将关注情感分析任务，即通过分析电影评论的情感来判断评论是正面的、负面的。

数据中心——大数据时代的基石

Hello，大家好，自从前几天小WI发了那篇介绍基于神经网络的数据中心控制的文章，好多朋友就小窗问小WI说你们到底是做什么的呀，怎么天天和神经打交道？估计大家是被那张神经元的图镇住了，话说真要是天天和神经打交道，那脑袋还不变神经了… 其实小WI团队主要研究对象是数据中心，今天，小WI就给大家科普一下数据中心到底是做什么的~ 在谈数据中心之前，小WI先问个问题：你有没有暗恋过一个人，经常登陆到她的空间，看她迷人的照片；见不到她本人，却一遍遍回味过去的聊天记录；在

012

做数据分析，到底要懂多少业务

小伙们经常听到这样一句话：“数据分析要懂业务！”那到底啥玩意才是业务？懂多少才算懂业务？今天跟大家分享一下。

百闻不如一码！手把手教你用Python搭一个Transformer

与基于RNN的方法相比，Transformer 不需要循环，主要是由Attention 机制组成，因而可以充分利用python的高效线性代数函数库，大量节省训练时间。

数据分析师，如何向亲友解释自己的工作

临近过年，很多小伙伴已经回家和亲戚朋友团聚，长时间不见，自然少不了嘘寒问暖灵魂拷问的环节。

教你几招搞定 LSTMs 的独门绝技（附代码）

如果你用过 PyTorch 进行深度学习研究和实验的话，你可能经历过欣喜愉悦、能量爆棚的体验，甚至有点像是走在阳光下，感觉生活竟然如此美好。但是直到你试着用 PyTorch 实现可变大小的 mini-batch RNNs 的时候，瞬间一切又回到了解放前。

“客户成功经理”是十八般武艺傍身还是巧妇难为无米之炊？

路人甲：就是客户第一年合同结束前去和客户拉拉关系，争取客户能第二年续签，相当于销售角色吧。

word2vec原理与实现「建议收藏」

word2vec是一种把词转到某种向量空间的方法，在新的向量空间，词之间的相互关系，上下文关系都以某种程度被表征出来。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐