腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
词汇
类型
标记
训练
数据
时
出现
‘'
Illegal
’
消息
bixby
、
bixbystudio
我正在尝试
使用
vocab文件来
标记
我的
训练
数据
,以减少我需要添加的
训练
短语的数量,例如,
使用
Bill vocab,它允许“bill”或“invoice”的互换
使用
。我已经添加了一个Bill枚举
类型
和一个Bill vocab文件。然而,当我尝试在我的
训练
短语中
使用
值Bill:Bill来
标记
单词'bill‘
时
,我在
训练
条目中得到了一条’非法计划‘的
消
浏览 17
提问于2019-04-17
得票数 0
1
回答
转换器/伯特令牌预测
词汇
表(从一组可能的令牌中筛选出特殊令牌)
bert-language-model
、
transformer-model
对于转换器模型,特别是对于BERT,以编程方式禁止以特殊令牌作为预测结果的模型是否有意义(并且在统计上是正确的)?这在最初的实现中是怎样的呢?在趋同过程中,模型必须学会不去预测这些,但这种干预是否会有所帮助(或相反)?
浏览 6
提问于2021-02-13
得票数 3
1
回答
GPT如何处理大型
词汇
表?
deep-learning
、
nlp
、
gpt
据我所知,GPT和GPT-2被
训练
用来预测给定以前的N^{th}单词的句子中的N-1单词。当
词汇
量非常大(100k+单词)
时
,如何才能产生任何有意义的预测?
浏览 0
提问于2020-07-11
得票数 7
回答已采纳
1
回答
NLP:与标准的单词
标记
器相比,
使用
子词
标记
器有什么好处?
tensorflow
、
nlp
、
colab
、
tokenization
Tensorflow colab教程,介绍如何用Transformers,https://www.tensorflow.org/tutorials/text/transformer来翻译语言,他们用一个子单词文本
标记
器来
标记
这些单词我以前从未见过一个子词记号器,也不知道为什么或什么时候应该
使用
它,而不是单词记号器。7915 ----> T7946 ----> s有谁知道将单词分解成子词的好处是什么,
浏览 0
提问于2020-10-09
得票数 3
回答已采纳
2
回答
在分类模型中处理新特征
machine-learning
、
sentiment-analysis
、
text-classification
我的方法是进行通常80%的
训练
数据
集和20%的测试。有了一个经过
训练
的模型,当新特征
出现
(文本中的新词没有
出现
在初始
数据
集中)
时
,在生产环境中进行的最佳方式是什么?
浏览 19
提问于2017-08-08
得票数 0
2
回答
机器翻译的
词汇
量
machine-translation
、
vocabulary
在进行机器翻译
时
,如果您分割单词,例如
使用
BPE,那么处理后的
词汇
量有多大?
浏览 41
提问于2020-11-19
得票数 0
回答已采纳
1
回答
斯坦福CoreNLP:如何将一个标准的、但经过俄罗斯
训练
的NER模型与完全自定义的lemmatisation模型集成在一起?
nlp
、
stanford-nlp
、
named-entity-recognition
作为我大学项目的一部分,我目前正在研究一种适用于俄语的共指
标记
算法,基于斯坦福大学的CoreNLP。在很大程度上,这很容易:已经有了俄罗斯的lemmatisation和PoS
标记
模型。然而,没有用于该语言的NER模型,至少基于CoreNLP,因此,我必须
使用
CoreNLP的统计方法自己
训练
这样的模型。问题在于如何使这个新的经过
训练
的NER模型适应lemmatisation和PoS- to模型。虽然我的模型是纯统计的,仍然基于原始的CoreNLP代码,但另外两个完全不同。
浏览 21
提问于2019-03-17
得票数 0
1
回答
在预
训练
的GenSim Word2Vec中处理新词
python
、
pytorch
、
gensim
、
word2vec
、
embedding
我在gensim 3.6中
使用
预
训练
的word2vec嵌入(word2vec-google-news-300)。我应该如何使它适应pad令牌?
浏览 7
提问于2021-11-25
得票数 0
2
回答
WordPiece
标记
化如何帮助有效地处理NLP中的稀有单词问题?
nlp
、
word-embedding
在playing中,我们将像play和##ing.这样的令牌拆分为有人提到,它涵盖更广泛的范围外
词汇
(OOV)的
词汇
.请有人帮我解释一下WordPiece
标记
化是如何实现的,它是如何有效地处理稀有/OOV
浏览 0
提问于2019-03-27
得票数 52
回答已采纳
1
回答
如何找到"num_words“或
词汇
表大小的Keras
标记
器
时
,一个没有分配?
machine-learning
、
keras
、
deep-learning
、
nlp
、
tokenize
那么,如果我在初始化Tokenizer()
时
没有传递num_words参数,那么在
使用
词汇
表大小对
训练
数据
集进行
标记
化之后,我如何找到它呢?为什么这样,我不想限制记号赋予器的
词汇
表大小,以了解我的Keras模型在没有它的情况下有多好。但是,我需要将这个
词汇
表大小作为模型的第一层定义中的参数传递。
浏览 3
提问于2018-11-29
得票数 10
回答已采纳
2
回答
包装的情感分析工具(TextBlob/NLTK)和
训练
你自己的分类器之间的区别?
machine-learning
、
nlp
、
sentiment-analysis
、
nltk
、
classifier
我在实践中对ML和
训练
分类器很陌生,所以我想知道NLTK和TextBlob等包的内置情感工具与手动创建分类器(培训、测试等)有什么不同。我想我在某个地方读到了这样的评论:Textblob/NLTK现有的情感分析工具基本上只是
标记
文本,并计算肯定/否定的单词数,以确定总体情绪评级(不确定这有多准确)。有没有人知道,一般来说,
使用
自定义分类器可以更好地对文本进行情感分析(我正在分析酒店评论中表达的情感)?
浏览 0
提问于2019-12-06
得票数 1
回答已采纳
3
回答
有没有办法从doc2vec模型中获得
词汇
表的大小?
gensim
、
word2vec
、
doc2vec
我正在
使用
gensim doc2vec。我想知道是否有任何有效的方法来了解doc2vec的
词汇
表大小。一种粗糙的方法是计算单词总数,但是如果
数据
是巨大的(1GB或更多),那么这将不是一种有效的方法。
浏览 5
提问于2017-01-12
得票数 7
回答已采纳
1
回答
使用
infer_vector()检查doc2vec的模型过拟合
python
、
testing
、
nlp
、
gensim
、
doc2vec
我目前正在尝试评估我
训练
过的Doc2Vec模型,方法是在看不见的test_df上用infer_vector()推断向量,然后再用it.However进行预测,结果非常糟糕。vecs)test_df = pd.concat([test_df, vectors_test], axis=1) 然后我
使用
我的
浏览 0
提问于2020-10-26
得票数 2
2
回答
训练
前语料库的word2vec
词汇
化
nlp
、
word2vec
、
gensim
、
lemmatization
Word2vec似乎主要是在原始语料库
数据
上
训练
的。然而,
词汇
化是许多语义相似性任务的标准预处理。我想知道是否有人有在
训练
word2vec之前对语料库进行
词汇
化的经验,以及这是否是一个有用的预处理步骤。
浏览 2
提问于2014-05-27
得票数 30
回答已采纳
2
回答
Gensim Word2Vec缺少输入单词的向量
gensim
、
word2vec
我
训练
过的Gensim Word2Vec缺少某些单词的向量。也就是说,尽管我有一个单词"yuval“作为输入,但该模型缺少一个向量。原因是什么?
浏览 1
提问于2019-05-30
得票数 0
2
回答
用例子解释bpe (字节对编码)?
algorithm
、
nlp
、
tokenize
到目前为止,我所知道的是,它通过将稀有和未知的单词编码为子词单元序列来实现开放
词汇
表上的NMT模型翻译。 但我想了解一下它是如何工作的,而不用看这篇论文。
浏览 3
提问于2018-05-29
得票数 9
2
回答
为自定义
词汇
表创建一个N-gram模型
python
、
nlp
、
nltk
、
prediction
、
n-gram
而且我的
训练
数据
集将有一些与我的语音列表格式完全相同的数字,如下所示: 现在,我的问题是,我是否可以建立一个N-Gram模型,可以
使用
训练
数据
进行
训练
?然后,用这个模型来预测一个新单词
出现
的可能性。 我正在
使用
py
浏览 0
提问于2018-12-12
得票数 1
回答已采纳
1
回答
如何匹配NLP弓的新记录中的特征
machine-learning
、
nlp
、
feature-extraction
我有一个包含100,000条记录的
数据
集 此
数据
集中的
数据
为2列1-文本2-类 当我应用我的模型的弓
时
,我得到了一个很大的特性列表 很好,我设法和他们一起工作了 我的问题是在构建模型和部署之后。现在,如果新文本包含新单词,则模型将无法工作,因为它在相同的特征结构中工作 示例“这是一个测试,测试很重要”,红色"Adam通过测试“,绿色 所以我的最终
数据
集是 This is a test important1 1 Green 一旦创建了模型并获得了以下文本 “测试和考试相似”,黄色 在这种
浏览 16
提问于2020-07-09
得票数 0
回答已采纳
2
回答
如何在LSTM网络中设置
词汇
量、填充长度和嵌入维数?
python
、
lstm
、
rnn
、
text
通常,在LSTM网络中,在模型开始
训练
之前,我们需要设置一定的参数。我是专门谈论
词汇
表的大小,填充长度和嵌入尺寸。PS:从答案中我了解了如何设置
词汇
量。填充长度应大于火车组中文本的最大长度(而不是整个集,因为这会导致
数据
泄漏!)但是当通过HP调优来设置嵌入维
时
,这将是一个耗时的过程,对于每一个组合,我都要运行整个模型,正如您所知道的,神经网络需要很长时间才能运行。有没有更好的办法?
浏览 0
提问于2022-01-27
得票数 0
回答已采纳
1
回答
用新
数据
训练
Doc2vec
document
、
word2vec
、
word
、
skip
、
doc2vec
我正在继续
使用
model.train()来
训练
我的模型。新的
数据
也有新的标签,但是,当我在更多的文档上
训练
它
时
,新的标签不会被记录.有人知道我的问题可能是什么吗?
浏览 0
提问于2020-07-08
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券