基于T5预训练模型的抽象文本摘要_基于seq2seq模型的抽象文本摘要_基于预训练模型的Keras时间序列预测 - 腾讯云开发者社区

huggingface-transformers、summarization

您好，我正在使用t5预训练的摘要摘要，我如何评估摘要输出的准确性简而言之，我的模型准确率有多高

浏览 33提问于2021-05-01得票数 2

2回答

文本摘要的BERT

tensorflow、keras、deep-learning、word-embedding、seq2seq

我正在尝试使用Keras中的seq2seq架构来构建一个文本摘要模型。我遵循了本教程的，并使用嵌入层实现了它，它工作得很好。但现在我想用BERT。在这样的任务中可以使用预训练的BERT嵌入吗，通常我看到的是文本分类，而不是BERT使用的编码器-解码器架构。我从TF集线器访问BERT模型，并从本教程中实现了一个层类，我还相应地使用BERT标记器进行标记化，下面是我的模型 enc_in_id = Input(shape=(None, ), name="Encoder-Input-Ids") enc_in_mask = Input(shape=(None, ), name="

浏览 3提问于2019-08-21得票数 2

1回答

使用变压器进行文本摘要

tensorflow、pytorch、huggingface-transformers、transformer-model、summarization

我在text-summarization.中使用拥抱面变压器模型。目前，我正在测试不同的模型，如、T5、和Pegasus。现在，这些模型被训练用来将大文本概括成非常简短的内容，比如最多两句话。现在我有一个任务，我想要的摘要，大约一半的文本，所以产生的摘要太小，我的目的。我现在的问题是，是否有一种方法可以告诉模型，之前又出现了一句话？有点类似于有状态RNN内部的逻辑(虽然我知道它们的工作方式完全不同)。如果是的话，我可以总结小窗口的句子，总是与信息，内容之前。这只是我脑子里的想法吗？我不敢相信我是唯一一个想要写简短摘要的人，而不是一个或两个句子长的人。谢谢

浏览 0提问于2020-09-15得票数 0

回答已采纳

1回答

如何冻结T5变压器模型的部件

huggingface-transformers、t5-transformer

我知道T5在每一层中都有K，Q和V矢量。它还有一个前馈网络。我想冻结K，Q和V向量，只训练每一层T5的前馈层。我用的是毕火炬图书馆。该模型可以是拥抱面T5模型的包装器，也可以是它的修改版本。我知道如何使用以下代码冻结所有参数： tokenizer = AutoTokenizer.from_pretrained(underlying_model_name) model = T5ForConditionalGeneration.from_pretrained(underlying_model_name) for p in model.parameters(): p.requires_gr

浏览 7提问于2022-02-09得票数 2

回答已采纳

1回答

用预训练模型T5回答问题

python、nlp、huggingface-transformers

我想使用预先训练过的T5模型来执行在上回答问题的任务，知道我的输入是段落和问题，输出是布尔值，真假，这是问题的答案。我见过一些人把模型调到这个特定的任务。但是，我想知道是否有办法用预先训练过的模型来获得一些输出，然后在调优后将它们与模型进行比较。谢谢!

浏览 14提问于2022-04-13得票数 0

1回答

用于优化英特尔OpenVINO预训练模型的原始父网络的DNN网络体系结构，如果是，是如何优化的？

openvino

我使用了OpenVINO中预先训练好的模型进行推理。我想知道如何看到这些模型的网络结构？如果我想从头开始重新训练这些网络，我能知道这些预训练的模型最初来自哪些父模型吗？

浏览 1提问于2020-07-22得票数 0

2回答

我们可以训练Spacy进行文本摘要吗

nlp、spacy、spacy-3

Spacy可以训练NER，文本分类。我们可以使用它的功能进行摘要，所以我们可以训练spacy来提高摘要的准确性吗？

浏览 67提问于2021-09-22得票数 0

1回答

变压器培训与特定任务的微调

tensorflow、machine-learning、nlp、transformer-model

我正在看下面的tensorflow变压器的实现。我不确定我的理解是否正确。在初始化变压器模型时，需要以一种无监督的方式对大量原始文本进行培训，这样它才能学习语言，然后您就可以使它适应特定的任务。在这个例子中，我不确定训练数据是否被用来训练变压器模型本身？看起来只有一个“合适”的程序。这是正确的吗？

浏览 2提问于2022-09-03得票数 -1

2回答

在小型定制语料库上预训练语言模型

deep-learning、transfer-learning、huggingface-transformers、language-model、bert-language-model

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：使用经过预先训练的伯特装置。从我的新文本中获取新的标记，并将它们添加到现有的经过预先培训的语言模型中(例如，vanilla BERT)。使用组合标记器在自定义语料库上重新训练预训练的BERT模型。在小型定制语料库中生成类似于文本的文本。这听起来耳熟吗？抱着脸

浏览 5提问于2020-04-24得票数 7

2回答

用于文本摘要的序列到序列模型的详细内容是什么？

nlp、dataset、sequence-to-sequence

如何训练翻译的编解码模型是很清楚的:每个源序列都有相应的目标序列(翻译)。但是，就文本摘要而言，摘要要比其文章短得多。根据的说法，每个源句都有其摘要(短或长)。但我很难想象，在每个句子都有相应的摘要的情况下，就会有这样的数据集。那么，如果我是对的，有什么可能的方法来训练太阳模型？否则，是否有任何免费的数据集进行文本摘要？

浏览 2提问于2017-04-18得票数 0

回答已采纳

1回答

如何使用没有预先训练过的T5模型(拥抱面)的体系结构

deep-learning、nlp、pytorch、huggingface-transformers

我想研究预训练模型的效果，所以我想测试有和没有预先训练权值的t5模型。使用预先训练的权重是直截了当的，但我不知道如何在没有权重的情况下使用T5的体系结构。我用的是抱着火把的脸，但打开的是不同的解决方案。

浏览 14提问于2022-09-13得票数 0

回答已采纳

1回答

命题逻辑的预训练模型

deep-learning、question-answering

是否有任何经过预先训练的模型能理解命题逻辑？例如，t5模型可以进行问答。考虑到“爱丽丝是鲍勃的母亲，鲍勃是查理的父亲”，t5可以正确回答“谁是查理的父亲”的问题，但不能说“谁是查理的祖母”。是否有任何模型已经/可以被训练来做这样的演绎和回答问题？

浏览 0提问于2021-05-14得票数 1

回答已采纳

1回答

在bert上训练新数据集

python、tensorflow、nlp、tokenize、bert-language-model

我是新来伯特的我有一个amazon评论数据集，我想要根据评论预测星级我知道我可以使用预先训练好的bert模型，如here所示但我想在我自己的数据集上训练bert模型。这就是here正在做的事情吗？我是否可以在任何数据集的预训练模型上应用这种“微调”，以获得更准确的结果，或者我是否必须做一些其他事情来从头开始训练模型如果我确实想从头开始训练一个模型，我应该从哪里开始呢？

浏览 61提问于2021-10-03得票数 0

1回答

HuggingFace T5转换器模型-如何准备自定义数据集进行微调？

python、nlp、huggingface-transformers、huggingface-tokenizers

我试图使用HuggingFace库来使用自定义数据集对T5转换器模型进行微调。HF提供了一个的例子，但是这是针对蒸馏器模型的，而不是我想要使用的T5模型。从他们的示例中可以看出，我需要在dataset子类中实现len和getitem方法，但是在使用t5而不是蒸馏器时，似乎没有太多的文档说明要更改什么。下面是令牌程序代码，然后是我试图更改getitem的尝试以及trainer.train()产生的错误，即“KeyError：‘标签’” 我已经看到了下面的，它似乎与这个问题有关，但是提供的答案仍然会在trainer.train()中产生一个错误，如果有用的话，我也可以发布这个错误。使用“使

浏览 19提问于2021-08-02得票数 0

2回答

在向RNN提供句子时，我是否应该删除断句？

machine-learning、nlp、deep-learning、text-classification、recurrent-neural-network

在纸袋模型中，我知道在训练前我们应该去掉句号和标点符号.但是在RNN模型中，如果我想做文本分类，是否也应该删除停止词？

浏览 5提问于2016-05-19得票数 0

回答已采纳

1回答

不同开源自然语言生成器的相对优点

nlp、text-mining

有谁知道(根据你的经验)什么是最好的开源自然语言生成器(NLG)？每种方法的相对优点是什么？我希望做复杂的文本摘要，并希望使用主题提取/语义建模与NLG工具，以创建准确的，上下文感知的，自然听起来的文本摘要。

浏览 0提问于2014-07-30得票数 3

1回答

社交媒体的预培训word 2 vec模型

word2vec

我尝试过使用en_core_web_lg，结果非常好，但我想知道是否有更好的训练有素的word 2 vec模型可能更好地向量化一个社会媒体数据集(Tweet)？我还使用gensim在dataset上训练了自己的word 2 vec模型，结果比en_core_web_lg稍差。我的数据集不大。任何建议都会有帮助，谢谢。

浏览 0提问于2023-02-22得票数 0

1回答

Java -列车负载tensorflow模型

java、python、machine-learning、tensorflow、protocol-buffers

有谁知道在模型从Tensorflow Python加载到Java后是否有可能继续对模型进行培训？我已经想出了这个代码片段，但是没有工作(是的，输出与输入相同) for(int i = 0; i < 10000; i++) { Tensor cost = b.session().runner().feed("input", input).feed("output", input).fetch("cost").run().get(0); System.out.println(result1); } 这是打印了10000次的内容：

浏览 2提问于2017-04-25得票数 0

回答已采纳

1回答

序列推理的深度学习

machine-learning、artificial-intelligence、deep-learning、hidden-markov-models、unsupervised-learning

我想使用深度学习技术来执行比隐马尔可夫模型(这是一个浅层模型)更好的推理任务。我想知道什么是最先进的深度学习模式来取代隐马尔可夫模型(HMM)？这套设备是半监督的。训练数据X(t)，Y(t)是一个时间序列，具有显著的时间相关性。此外，还有大量的未标记数据，即简单X(t)和没有Y(t)。在阅读了许多论文后，我缩小了以下模型->有条件限制的Boltzmann机器(Ilya论文)，并使用深度信念网络进行无监督的预训练(或使用变分自动编码器进行预训练)。我对这个领域非常陌生，我想知道这些技术是否已经过时了。

浏览 2提问于2017-05-09得票数 1

回答已采纳

2回答

关于自动、基于学习的文档摘要，有哪些好的资源可供学习？

machine-learning、nlp

文档摘要可以通过从源文档中提取文本来完成，或者您可以使用学习算法来解释文档所传达的内容，然后使用语言生成技术(就像人类一样)生成摘要。对于后一种方法，是否有算法或已有的研究工作？一般来说，有哪些关于文档摘要技术的好资源可供学习？

浏览 3提问于2014-08-31得票数 2

1回答

为什么我的tensorflow事件文件是空的？

tensorflow、object-detection-api

我正在运行tensorflow对象检测API并使用SSD_mobilenet模型。我在我的训练目录中有model.cpkt和graph.pbtxt。但是在我的训练目录中，我发现我的事件文件是空的。似乎没有数据写入到我的事件中。有人能帮帮我吗！

浏览 3提问于2018-11-28得票数 0

1回答

什么是最简单的方式继续培训一个预先培训的伯特模型，在一个特定的领域？

nlp、text-classification、bert-language-model、huggingface-transformers、pytorch-lightning

我想使用一个预先训练的伯特模型，以便在文本分类任务中使用它(我使用的是Huggingface库)。然而，预先训练过的模型是针对与我不同的领域而训练的，我有一个大的未注释的数据集，可以用来微调它。如果我只使用标记的示例并在特定任务(BertForSequenceClassification)的培训中微调它，那么数据集太小，无法适应特定领域的语言模型。这样做最好的方法是什么？谢谢!

浏览 5提问于2021-04-27得票数 1

回答已采纳

1回答

fasttext train_supervised函数有没有理想的参数值？

nlp、text-classification、word-embedding、supervised-learning、fasttext

我致力于自然语言处理问题，并尝试用词嵌入的方法进行文本分类。我正在用fasttext的train_supervised训练我的模型，但是对于这个函数，有没有什么理想的或最好的参数值，你可以告诉我，我也在使用Kfold和一些值，我如何在这个问题中找到最佳的K-折叠数？我的解决方案是使用快速文本的自动调谐功能来为模型找到最佳的参数值来训练，但是有什么可能的建议给我吗？下图显示了我在模型中的最佳参数。最后，我使用fasttext的预训练单词向量模型进行训练。 ?

浏览 87提问于2021-11-02得票数 0

回答已采纳

1回答

如何使用神经网络从特定主题的句子中提取相关短语？

python、text、nlp、lstm、recurrent-neural-network

我有两列训练数据1.‘句子’2.'Relevant_ text‘(此列中的文本是列’句子‘中的文本的子集) 我试着用LSTM直接把“句子”当作输入，把“Relevant_text”当作输出，训练一个随机神经网络，但结果令人失望。我想知道如何处理这类问题？这类问题有名字吗？我应该探索哪些模型？

浏览 22提问于2020-05-23得票数 0

1回答

如何在只使用torch.save(模型)保存后加载模型？

python、neural-network、torch

我刚刚训练了一个基于T5网络的模型，但是我只能用 torch.save(model, 'trained_model') 它将模型保存在一个trained_model文件中。当我现在试着用 model = torch.load("trained_model") 我得到了一个No module named 'transformers.modeling_t5'错误或者这样做： model = T5ForConditionalGeneration.from_pretrained("trained_model") 我得到了一个It lo

浏览 6提问于2022-07-19得票数 0

1回答

Huggingface的T5模型词汇表是否包括纯英语版本？

huggingface-transformers

有人知道HuggingFace的T5模型(small)是否带有单语言词汇表吗？谷歌的T5论文指出，他们的词汇是针对英语和其他3种语言进行训练的。这个词汇表有没有只包含英语词汇的版本？

浏览 20提问于2020-05-19得票数 1

1回答

使用T5实现句子嵌入

nlp、pytorch、word-embedding

我想使用最先进的LM T5来获得句子嵌入向量。我发现了这个仓库https://github.com/UKPLab/sentence-transformers，据我所知，在BERT中，我应该将第一个令牌作为CLS令牌，它将是句子嵌入。在这个存储库中，我在T5模型上看到了相同的行为： cls_tokens = output_tokens[:, 0, :] # CLS token is first token 这种行为正确吗？我从T5获取了编码器，并用它对两个短语进行了编码： "I live in the kindergarden" "Yes, I live in the

浏览 59提问于2020-10-29得票数 2

回答已采纳

1回答

哪个HuggingFace摘要模型支持超过1024个令牌？哪种模式更适合于相关文章的编程？

nlp、huggingface-transformers、summarization、huggingface、mlmodel

如果这里不是问这个问题的最佳地点，请带我去找最准确的问题。我计划使用一个拥抱脸摘要模型()来总结我的演讲视频记录。到目前为止，我已经测试了facebook/bart-large-cnn和sshleifer/distilbart-cnn-12-6，但它们只支持最多1,024个令牌作为输入。下面是我的问题：是否有任何摘要模型支持较长的输入，如10,000字文章？给定输入长度的最佳输出长度是多少？假设一个1000字的输入，最优(最小)输出长度(最小)是多少。摘要案文的长度)？哪种模式可能适用于与编程相关的文章？

浏览 5提问于2022-10-27得票数 1

回答已采纳

1回答

产品描述中的文本分类问题

python、machine-learning、text-classification

我刚开始机器学习，我有一个包含4000到5000项的数据集，它们都是产品描述，结果，我想训练一个模型来将它们分类为1或0，我能用这种文本来训练它吗？

浏览 5提问于2022-10-09得票数 -1

1回答

预先训练的手写OCR模型

machine-learning、deep-learning、nlp、ocr

我一直在寻找专门用于手写OCR的预先训练过的模型。到目前为止我还没发现什么。请你分享一下，如果你知道的话？我发现tesseract很难解析任何不是公式化和完美捕获的东西。

浏览 0提问于2020-01-17得票数 5

回答已采纳

1回答

如何从图像分类器中制作物体检测器？

tensorflow、image-recognition、object-detection

我有一个tensorflow模型(再训练初始模型)，它可以对5类车辆进行分类。现在我需要使用这个经过训练的模型为所有这5个类制作一个对象检测器。可以通过移除最后一层来实现吗？有没有人能给我提个建议？

浏览 0提问于2017-04-19得票数 1

1回答

如何在BERT的帮助下找到段落的上下文？

nlp

我正在寻找一种方法来用BERT运行一个简单的例子。如何使用谷歌BERT分析上下文？https://github.com/google-research/bert例如，我有一段维基百科文本，以及来自谷歌的预训练BERT模型。如何将段落传递给BERT并获得主要上下文的文本表示？谢谢! EDTED：示例:我们有一个段落 “我正在寻找一种使用BERT运行一个简单示例的方法。如何使用谷歌BERT分析上下文？https://github.com/google-research/bert例如，我有一段维基百科文本，以及来自谷歌的预先训练的BERT模型。如何将该段落传递给BERT并获得主要上下文的文本表示

浏览 18提问于2019-01-16得票数 1

回答已采纳

1回答

加载自定义训练的spaCy模型

python、nlp、spacy

我正在尝试加载我之前训练过的spaCy文本分类模型。训练完成后，模型被保存到en_textcat_demo-0.0.0.tar.gz文件中。我想在jupyter笔记本上使用这个模型，但是当我这样做的时候 import spacy spacy.load("spacy_files/en_textcat_demo-0.0.0.tar.gz") 我得到了 OSError: [E053] Could not read meta.json from spacy_files/en_textcat_demo-0.0.0.tar.gz 在这里加载模型的正确方法是什么？

浏览 23提问于2021-07-27得票数 1

回答已采纳

2回答

Tensorflow Keras模型和Estimator有什么不同？

tensorflow、keras、tensorflow-estimator

Tensorflow Keras模型和Tensorflow估计器都能够训练神经网络模型，并使用它们来预测新数据。它们都是建立在低级核心TensorFlow应用程序接口之上的高级API。那么我应该在什么时候使用一个而不是另一个呢？

浏览 6提问于2018-07-21得票数 59

回答已采纳

2回答

是否有任何理由对伯特进行关于具体文本的预培训？

bert、transfer-learning、language-model、pretraining

因此，官方的伯特英语模型是在维基百科和BookCurpos (来源)(来源)上培训的。例如，现在，假设我想使用BERT作为电影标签推荐。有什么理由让我在电影相关数据集上从无到有地培训一个新的伯特模型？我的模型能变得更准确吗，因为我把它训练成电影相关的文本而不是一般的文本？有这种用法的例子吗？要明确的是，问题在于数据集的上下文(而不是大小)的重要性。

浏览 0提问于2021-02-07得票数 1

回答已采纳

1回答

培训和评估操作的Tensorflow主管？

tensorflow

我一直在使用tensorflow supervisor ()从保存的检查点加载模型，用于训练和运行网络。但我注意到，即使在运行/评估模型时，检查点文件也会更新( graph.pbtxt的时间戳、更新的model.ckpt.data文件和创建的新events.out )。这让我想知道使用supervisor来运行/评估模型是否也会重置/改变训练状态？建议使用主管进行培训以外的其他工作吗？训练- sv = tf.train.Supervisor(logdir=mylogdir) with sv.managed_session() as sess: if not sv.should_st

浏览 8提问于2017-02-23得票数 0

回答已采纳

1回答

关于附加培训数据的培训培训seq2seq模型

tensorflow、deep-learning、machine-translation、sequence-to-sequence

我用1M个样本训练了一个seq2seq模型，并保存了最新的检查点。现在，我有一些额外的50K句子对的训练数据，这在以前的训练数据中是没有的。如何在不从头开始培训的情况下，使当前的模型适应这些新的数据？

浏览 2提问于2017-11-17得票数 2

回答已采纳

1回答

Python中的水印检测

deep-learning、keras、image-classification、convolutional-neural-network

我有很多图像，我想把它们分为两组:一组包含有水印的图像，另一组包含没有水印的图像。大约有40个不同的水印。我制作了“假”水印图像来训练CNN，它在“假”验证集上效果很好，但在真实图像上却不起作用。此外，这是一个很长的机会，因为我需要为每个水印训练一个模型(而且我没有原始水印)或训练一个大模型。我放弃了水印方法来尝试查找文本。因此，我尝试了OpenCV文本检测，但它真的不起作用，因为文本是弯曲的，与背景并没有太大的不同。我错过了一个简单的解决方案吗？任何想法都是正确的。我对机器学习有点陌生:)

浏览 0提问于2018-03-01得票数 4

回答已采纳

2回答

我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？

nlp、word2vec、gensim

我有一套来自服装领域的评论，大约100000篇评论(200万字)。我想训练word2vec用它做一些很酷的NLP员工。然而，规模不足以创建足够的word2vec模型，它需要数十亿字。因此，我们的想法是使用公共语料库(如维基百科)，甚至使用一些预先训练过的模型(例如，gensim酷框架)并添加我的领域特定文本。我假设这个模型会注意到未见过的公开单词，并且可以纠正普通单词的向量。说得通吗？这两百万字会有什么效果吗？

浏览 0提问于2018-08-21得票数 5

1回答

如何在TensorBoard中跟踪验证损失？

tensorflow、tensorboard

我正在用TensorFlow训练一个模型。在训练期间，我定期评估验证集上的模型。我想写一个训练过程的摘要，这样就可以显示验证集损失的曲线图，这样我就可以看到它随着训练迭代的增加而下降。(或者，如果我开始变得过大，就跳回来。) 我已经有一个全局迭代变量作为我的摘要的一部分。我正在考虑在模型图中创建一个标量汇总validation_loss变量，该变量与任何东西都没有关联，但我会定期从我的训练循环中为其分配一个变量。这是一个好策略吗？在TensorFlow中，有没有一种更常用的方法来实现这一点？ (我正在处理的特定项目是，它是TensorFlow文档中的泛化。)

浏览 0提问于2016-08-17得票数 0

1回答

大型的预培训语言模型是否已经“了解”NLP任务？

nlp、transformer、language-model

目前，NLP最先进的技术是在特定的任务上完善一个大型的预先训练的语言模型，如BERT/GPT等。这些语言模型是对大量数据进行预训练，然后根据为回答问题、机器翻译等。而发布的流行标记数据集进行基本评估。由于这些数据集已成为评估这些模型的事实上的缺省值，这些数据集已一次又一次地在各种网站上发布。因此，这些数据集(训练和测试数据)基本上包括分类任务中的标签或Q/A任务中的答案。所以现在，当训练一种新的大型语言模型(使用一种新的体系结构)时，它会被大量的文本数据所填充，而这些数据通常也是从互联网上刮来的。难道在这些LMs的培训阶段，网络已经看到了这些精确的数据(并了解了这些数据的共现性)，而这些数据后

浏览 0提问于2022-10-21得票数 5

1回答

对非英语数据集进行培训。

nlp、fasttext

我进入了一个新的项目，我想把单词表示成向量，我读了关于Fasttext库的文章，我发现他们有经过预先训练的语言模型，而不是英语。目的是预测不同单词之间的亲密程度。我想知道的是，我能不能对非英语数据和新闻网站的文章进行快速文本模式的培训，以达到更好的效果，比如政治和现在的话题等等。我能把它训练成非英语数据集吗？训练一个10 GB的文本模型需要多长时间？够大了吗？有更好的解决办法吗？，提前谢谢！

浏览 1提问于2019-01-25得票数 0

回答已采纳

1回答

我如何从头开始训练模型，例如，使用inception v3或v4来使用COCO数据集进行对象检测？

tensorflow、object-detection

实际上，我们正在使用faster_rcnn_inception_resnet_v2_atrous_coco预训练模型来训练我们自己的数据集图像，但我们希望改进我们的目标检测。我如何从头开始训练模型，例如，使用inception v3或v4来使用COCO数据集进行对象检测？我希望像中描述的其他模型一样，生成一个名为faster_rcnn_inception_v3_coco的预训练模型

浏览 30提问于2018-01-04得票数 0

1回答

文本摘要的多语种数据处理

deep-learning、nlp

我有一个数据集，每个条目都有文本文档，这些文档都是各种没有指定的伦理语言。如果我想总结数据集的内容，我的策略应该是什么？就像。Doc1：“鲁比是一只狗，lover.Ruby非常爱她的狗。鲁比有一只叫狗的宠物。” 现在总结起来很简单，因为"Ruby dog.Ruby有一只狗“ 但是当数据集也有法语、中文、印地语等文档时，应该如何处理呢？其中一些问题是:有代码切换的情况，我不知道数据集中的语言是什么。我猜测这可能是将所有数据集更改为英语语言，然后执行这些任务？如果转换成英语是一个好的选择，那么哪个图书馆会更好？

浏览 0提问于2018-06-02得票数 0

1回答

在tensorflow中训练Bert字嵌入模型

python、tensorflow、nlp、bert-language-model

我有自己的纯文本语料库。我想在TensorFlow中训练一个伯特模型，类似于gensim的word2vec，以得到每个单词的嵌入向量。我已经发现，所有的例子都与任何下游NLP任务相关，比如分类。但是，我想用我的自定义语料库来训练一个Bert模型，然后我可以得到一个给定单词的嵌入向量。任何线索都会有帮助。

浏览 0提问于2020-04-02得票数 2

1回答

NLP中迁移学习的资源与实用技巧

deep-learning、nlp、word-embeddings、convolutional-neural-network、transfer-learning

我有一些标签数据来训练和测试一个DNN。本文的主要目的是训练一种能够对文本进行二值分类的模型。为此，我有大约3000个标签数据和60000个未标记数据可供我使用。我的数据类型与指示有关(比如-打开门标签-1，给我一杯水标签-1，给我钱标签-0等等)。在这种情况下，我听说从其他模型转移知识将对我有很大帮助。有人能给我一些有用的资源来转移学习在NLP领域吗？我已经做了一些实验了。我使用GLoVE作为预先训练过的嵌入。然后用我的标签数据测试它。但准确率在70%左右。还尝试了使用我自己的数据(63k)构建嵌入，然后对模型进行训练。试验数据的准确率为75%。我的模型架构如下- 📷 Q1:我有一个简单的

浏览 0提问于2018-08-20得票数 2

2回答

如何从零开始培训伯特在传销和NSP的新领域？

deep-learning、nlp、bert-language-model、huggingface-transformers、transformer-model

我正在尝试使用我自己的数据集使用HuggingFace库从零开始训练伯特模型。我想训练模型的方式，它有确切的结构，原来的伯特模型。在最初的文章中，它指出：“BERT被训练完成两项任务:预测随机蒙面标记(MLM)和预测两个句子是否相互跟随(NSP)。SCIBERT采用与BERT相同的体系结构，但却接受了科学文本方面的预先培训。“ 我正试着理解如何像上面这样在两个任务上训练模型。目前，我将模型初始化如下： from transformers import BertForMaskedLM model = BertForMaskedLM(config=config) 然而，这将只是为传销，而不是NS

浏览 1提问于2021-01-09得票数 9

回答已采纳

1回答

应用迁移学习后的验证精度和训练精度没有提高

python、tensorflow、transfer-learning、pre-trained-model、conv1d

我正在从事一个项目，在这个项目中，我试图实施转移学习，对心电信号(一维)进行分类。我有一个精度相当高的预训练模型，但是模型是在一个不同的数据集上训练的，数据集的输入形状为(4096,12)和输出形状(6)。我想微调这个预先训练的模型，我的数据有一个输入形状(350,5)。为此，我在预先训练的模型输入之前添加了一些层，以获得形状(4096,12)，并添加了一个形状(5)的输出致密层。我的模型的代码如下： from tensorflow.keras.layers import Dense,Input,Conv1D, BatchNormalization, Activation,Flatten,R

浏览 9提问于2022-01-10得票数 0

1回答

实用注意模型

attention-mechanism

注意是你所需要的是一篇很好的文章，它建议使用位置编码作为RNN在其转换器体系结构中的替代方案。 GPT-2和GPT-3是使用这种结构的例子，这些结构是对大规模输入数据进行训练的。是否有一篇论文和一个模型使用位置编码，并超过基于RNN/LSTM的小规模数据集模型(文本数据的MBs，而不是Is )？如果有很多，哪些是生产应用中的领先者？

浏览 0提问于2020-10-09得票数 0

回答已采纳

2回答

谷歌word2vec训练模型是CBOW还是skipgram？

python-3.x、word2vec、word-embedding

是谷歌预先训练好的word2vec模型CBO或skipgram。我们通过以下方式加载预训练模型： from gensim.models.keyedvectors as word2vec model= word2vec.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz') 我们如何具体加载预先训练的CBOW或skipgram模型？

浏览 40提问于2019-07-18得票数 0