使用BERT来检测给定单词的语言_使用BERT对给定的字符长度或句子中的单词数量进行分类_在Python中用给定的语言说单词 - 腾讯云开发者社区

deep-learning、nlp、classification、bert-language-model

我有希伯来语的单词。其中一部分原文是英语，一部分是“希伯来语英语”，这意味着这些单词最初来自英语，但却是用希伯来语单词书写的。例如：“胰岛素”在希伯来语中是"אינסולין“(发音相同)。我有一个简单的二进制数据集。X:单词(用希伯来语字符书写) y:标签1如果单词最初是英文的，并且是用希伯来语字符书写的，否则为0 我尝试过使用分类器，但它的输入是全文，而我的<

浏览 17提问于2019-06-23得票数 2

回答已采纳

1回答

使用非英语文本的预训练模型的BERT句子嵌入

python、nlp、cosine-similarity、bert-language-model、sentence-similarity

我正在尝试应用BERT句子嵌入来从瑞典语文本字符串语料库中查找给定瑞典语文本片段的相似句子。来自sentence_transformers (SBERT)的句子BERT似乎是理想的选择。他们有各种预先训练的模型，并给出了很好的例子：()import torch embedder我想知道是否有可能并且可能更准确地应

浏览 8提问于2020-10-29得票数 0

1回答

Access spaCy屏蔽语言模型

python、nlp、spacy、language-model

从v2.1开始，spaCy具有BERT风格的语言模型(LM)。它预测单词向量，而不是单词，所以我将在这里互换使用“单词”和“单词向量”。我需要使用一个被掩蔽的单词和一个单词列表，并根据这些单词在被掩蔽的位置中出现的可能性对这些单词进行排序。目前我正在使用BERT (类似于<e

浏览 36提问于2019-05-25得票数 1

回答已采纳

2回答

使用BERT词嵌入生成同义词或相似词

nlp、word-embedding

我想使用BERT单词嵌入生成同义词或类似的单词。我开始使用BERT做这件事。对于以后的软件集成，它必须用Java语言完成，所以我选择了easy-bert ()。看起来我可以通过这种方式获得单词嵌入： try(Bert bert = Bert.load(new File("com/robrua/nlp/easy-ber

浏览 4提问于2020-03-05得票数 2

1回答

我想要构建一个下一个单词预测器，但我希望它不仅仅是使用n-gram。我有什么方法可以做到这一点？

nlp、nltk、prediction

我一直在努力学习NLTK和NLP，但使用n-gram构建下一个单词预测器似乎相对简单。我还可以用什么其他方法来解决这个问题？

浏览 1提问于2019-12-08得票数 0

1回答

如何从Tensorflow checkpoint (ckpt)文件中预测BERT-base中句子中的掩蔽词？

python、tensorflow、deep-learning、predict、bert-language-model

我有基于BERT的模型检查点，这是我在Tensorflow中从头开始训练的。我如何使用这些检查点来预测给定句子中的掩蔽词？例如，假设句子是，"CLS abc pqr MASK xyz SEP“，我想预测掩码位置的单词。我该怎么做呢？我在网上搜索了很多，但每个人都在使用BERT来完成特定于任务的分类任务。而不是使用BERT来</

浏览 24提问于2019-09-11得票数 0

1回答

一种建议不完整句子中单词列表的NLP模型

nlp

我在某种程度上读到了一堆关于预测句子中缺失单词的论文。我真正想要的是创建一个模型，从一个不完整的句子中建议一个单词。Suggested Words: soup a) crying c)

浏览 27提问于2019-06-30得票数 2

回答已采纳

1回答

BERT是否隐含地为单词计数建模？

machine-learning、nlp

鉴于BERT是双向的，它是否隐含地模拟了某些给定文本中的字数统计？我问的是在将数据列描述归类为有效或无效的情况下。我正在寻找一个基于字数统计的模型，并且想知道如果BERT是双向的，那么是否需要这样做。

浏览 30提问于2019-06-19得票数 0

2回答

从UTF8缓冲区中检测单词边界和每个单词的语言

encoding、utf-8、internationalization、icu

我正在开发一个自定义搜索引擎，我需要将每个单词传递给适当的特定语言词干分析器。我最近发现了紧凑语言检测器(CLD) ，它为UTF8缓冲区提供了令人印象深刻的语言检测。虽然CLD对于检测给定缓冲区的语言非常有用，但我需要从缓冲区中提取单词边界，并为这些单词检测每个单词的语言。

浏览 0提问于2012-05-09得票数 0

1回答

伯特能做下一个单词预测任务吗？

neural-network、deep-learning、attention-mechanism、transformer、bert

由于BERT是双向的(使用双向转换器)，是否可以将其用于下一个单词预测任务？如果是，有什么需要调整的？

浏览 0提问于2019-02-28得票数 20

回答已采纳

1回答

FitBERT是一个有用的软件包，但我对BERT开发掩蔽单词预测有一点怀疑，如下所示:我使用谷歌的脚本(如create_pretraining_data.py，run_pretraining.py，extract_features.pyetc..as )使用自定义语料库训练了bert模型，结果我得到了vocab文件，.tfrecord文件，.json文件和检查点文件。现在如何在你的软件包中使用这些文件来预测给

浏览 1提问于2020-10-04得票数 0

1回答

用Keras和Python创建NER模型

python、keras、nlp

我做了一个Keras模型来检测字符串值是Address，Company还是Date。我只使用了不同的公司名称，不同的日期共振峰和不同的街道地址进行培训。因此，我的数据集中的每一行都有1到5个单词(有些单词可以是数字)。是否可以使用该模型来检测字符串(地址、公司或日期)在较大文本中的位置？我认为这种模型被称为NER模型(命名实体识别)。我

浏览 4提问于2021-03-27得票数 3

1回答

伯特从哪里得到它预测的代币？

nlp、bert、language-model、tokenization

当BERT被用于蒙面语言建模时，它掩盖了一个标记，然后尝试预测它。伯特可以从中选择哪些候选令牌？它只是预测一个整数(就像一个回归问题)，然后使用这个令牌吗？或者它会对所有可能的单词标记执行softmax吗？对于后者，不是只有大量的可能的令牌吗？我很难想象BERT把它当作一个分类问题，其中# classes =#所有可能的单词标记。伯特从哪里得到它预测的标记？

浏览 0提问于2020-11-16得票数 2

回答已采纳

1回答

如何在给定上下文的句子中获取特定标记(单词)的概率

nlp、pytorch、huggingface-transformers、bert-language-model

我试着用NLP来计算句子中单词的概率或任何类型的分数。我使用Huggingface库对GPT2模型进行了尝试，但由于该模型的单向性质，在上下文中似乎无法预测，因此无法获得满意的结果。所以我想知道是否有一种方法，用BERT计算上面所说的，因为它是双向的。希望我能收到这方面的想法或解决方案。任何帮助都

浏览 1提问于2020-05-14得票数 5

3回答

spacy和训练数据中的有案例的BERT模型与无案例的BERT模型

python、spacy、bert-language-model

我想使用spacy的预训练的BERT模型进行文本分类，但我对cased/uncased模型有点困惑。我在某处读到过，只有在有可能对任务有帮助的情况下，才应该使用cased模型。在我的特定情况下:我正在处理德语文本。在德语中，所有名词都以大写字母开头。所以，我认为(如果我错了，请纠正我的错误)，这正是必须使用cased模型的情况。(在spacy中，也没有适用于德语的uncased模型)。但

浏览 0提问于2020-05-20得票数 8

回答已采纳

7回答

为什么译码器不是伯特架构的一部分？

nlp、bert、machine-translation、attention-mechanism

我看不出伯特是如何在不使用解码器的情况下做出预测的，这是之前所有模型的一部分，包括变压器和标准RNN。如何在不使用解码器的情况下在BERT体系结构中进行输出预测？怎么才能完全消除解码器呢？如果BERT只编码，我可以使用什么库/工具从嵌入解码？

浏览 0提问于2019-12-21得票数 22

回答已采纳

1回答

Bert单词嵌入的微调

python、pytorch、word-embedding、bert-language-model、language-model

我想加载一个预训练的Bert模型，并使用自定义数据集对其进行微调，特别是模型的单词嵌入。任务是使用所选单词的单词嵌入进行进一步分析。值得一提的是，数据集由tweet组成，没有标签。因此，我使用了BertForMaskedLM模型。此任务是否可以使用输入ids (标记化的tweet)作为标签？我没有标签。只有一些推文是随机排列的。从这一点开始，我

浏览 56提问于2020-10-01得票数 0

2回答

伯特架构和香草变压器架构有什么不同？

nlp、bert、transformer、encoder

我正在对总结任务做一些研究，发现BERT是从变压器模型中派生出来的。在我读过的关于伯特的每一个博客中，他们都专注于解释什么是双向编码器，所以，我认为这就是伯特不同于香草变压器模型的原因。但据我所知，转换器同时读取整个单词序列，因此它也被认为是双向的。有人能指出我错过了什么吗？

浏览 0提问于2020-11-30得票数 3

回答已采纳

1回答

为什么BERT模型必须保持10%的掩码标记不变？

deep-learning、nlp、bert-language-model

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测掩码令牌，还是预测15%的整个随机令牌？

浏览 151提问于2020-09-23得票数 2

回答已采纳

4回答

伯特:可以把它用于主题建模吗？

topic-model、lda、bert

我很难理解BERT的全部功能是什么:可以对文本进行主题建模，就像我们可以用LDA实现的那样？

浏览 0提问于2019-06-05得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云