腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
我
自己
的
R
语料库
上
训练
word2vec
模型
?
、
、
、
我
想在
我
自己
的
语料库
上
使用
R
中
的
rword2vec包
训练
word2vec
模型
。 用于
训练
模型
的
word2vec
函数需要一个train_file。
R
中
的
包文档只说明这是
训练
文本数据,但没有指定如何创建它。 在GitHub
上
的
示例中使用
浏览 15
提问于2019-05-01
得票数 2
回答已采纳
1
回答
在没有任何标签数据
的
情况下,在web
上
对文档进行排序
、
、
、
、
我
想要创建一个文档排序
模型
,该
模型
在dataset中为一个示例查询返回类似的行。该
语料库
中
的
文本是标准英语,但没有任何标签(即没有查询相关
的
文档结构)。是否有可能使用在大型
语料库
(
如
bert或
word2vec
)
上
训练
过
的
预先
训练
过
的
模型
,并在未进行任何评估
的
情况下将其直接用于被刮过
的
数据集并获
浏览 0
提问于2021-07-06
得票数 1
4
回答
如何计算WordNet中没有出现
的
英语单词
的
相似度?
、
、
一种特殊
的
自然语言实践是使用WordNet计算两个单词之间
的
相似度。
我
从下面的python代码开始
我
的
问题:sport = wordnet.synsets("sport")[0]print(sport.wup_similarity(badminton))现在,如果
我
查找&
浏览 0
提问于2016-07-09
得票数 6
1
回答
如何用
word2vec
训练
p(类别|标题)
模型
使用
word2vec
,目标是最大化
语料库
概率p(单词|上下文),上下文以单词
的
形式出现。 假设给定一个
语料库
标题及其类别(
如
体育、食品...),如何使用
word2vec
训练
模型
来预测p(类别|标题)。
浏览 1
提问于2015-02-03
得票数 1
1
回答
WikiCorpus是否删除gensim中
的
stop_words?
、
、
、
我
在最新
的
维基百科文章转储
上
构建了一个盒子嵌入
模型
,
我
需要将它与gensim中
的
word2vec
模型
进行比较。
我
看到,如果
我
使用WikiCorpus类中
的
get_texts()方法将
语料库
数据生成为txt文件,会有很多停用词,所以这让
我
认为WikiCorpus不会删除停用词,不是吗?现在,一旦在维基
语料库
txt
上
训练</
浏览 13
提问于2021-11-05
得票数 0
1
回答
如何使用gensim在
我
自己
的
语料库
上
训练
一个经过预先
训练
的
二进制文件?
、
、
、
嘿,伙计们,
我
有一个经过预先
训练
的
二进制文件,
我
想在
我
的
语料库
上
训练
它。
我
尝试过
的
方法:
我
尝试从
我
拥有的bin文件中提取txt文件,并在加载时将它作为
word2vec
文件使用,并在
我
自己
的
语料库
中进一步
训练
它并保存
模型
,但是
模型<
浏览 2
提问于2018-07-19
得票数 2
1
回答
什么时候
我
应该考虑使用列车前
模型
的
word2vec
模型
权重?
、
、
、
、
假设
我
的
语料库
相当大,有成千上万个独特
的
单词。
我
可以直接使用它构建一个
word2vec
模型
(下面代码中
的
方法#1 ),也可以用预先
训练
的
模型
权重初始化一个新
的
word2vec
模型
,并使用
我
自己
的
语料库
对其进行微调(方法2)。第二种方法值得考虑吗?如果是这样的话,
我</
浏览 2
提问于2021-04-14
得票数 0
回答已采纳
1
回答
Word2vec
内存和时间消耗吗?
、
、
我
正在尝试用神经网络
训练
一个
Word2Vec
模型
。
我
的
问题如下: 如果
我
错了,请纠正
我
:
word2vec
使用
的
输入文本与图像没有相同
的
数量级(就内存而言)?这是否意味着不需要使用GPU来
训练
word2vec
模型
,顺便说一句,64 to虚拟云机器就足以进行培训了吗?文字
训练
不能超过5-10Go吗?
浏览 0
提问于2018-10-11
得票数 0
1
回答
在tensorflow中
训练
Bert字嵌入
模型
、
、
、
我
有
自己
的
纯文本
语料库
。
我
想在TensorFlow中
训练
一个伯特
模型
,类似于gensim
的
word2vec
,以得到每个单词
的
嵌入向量。
我
已经发现,所有的例子都与任何下游NLP任务相关,比如分类。但是,
我
想用
我
的
自定义
语料库
来
训练
一个Bert
模型
,然后
我
可以得到一个给定单词<
浏览 0
提问于2020-04-02
得票数 2
1
回答
python gensim从doc2vec标签在线文档中检索原始句子
、
、
、
我
正在使用Gensim
的
doc2vec方法来读入
我
的
文本文件,该文件每行包含一句话。它将我
的
文件读入字典,其中键是术语
的
标记化列表,值是句子编号。下面是
我
的
代码: from gensim.models.doc2vec import LabeledSentence,TaggedLineDocumentfrom gensim.models import Doc2Vec new_fil
浏览 0
提问于2016-10-30
得票数 2
1
回答
与“yes”和“no”相似或表示“yes”和“no”
的
单词
、
我
想知道是否有基本上表示“是”或“否”
的
词
的
语料库
?如果没有,有哪些可能
的
算法/技术来收集这些信息?
我
刚刚开始学习NLP,所以如果这是一个显而易见
的
问题,请容忍
我
。谢谢!
浏览 5
提问于2016-06-22
得票数 1
2
回答
保存
Word2Vec
以进行CNN文本分类
、
、
、
我
想为
我
的
文本
语料库
训练
我
自己
的
Word2Vec
模型
。
我
可以从TensorFlow
的
教程中得到代码。
我
不知道
的
是如何保存这个
模型
,以便以后用于CNN文本分类?
我
应该用泡菜保存它,然后稍后再读吗?
浏览 1
提问于2016-07-24
得票数 1
回答已采纳
1
回答
使用词嵌入从大型
语料库
中查找概念
、
、
我
正在尝试从Konkani语言
的
语料库
中发现新
的
概念。
我
在1)领域特定
语料库
上
训练
了两个
模型
,2)在报纸
语料库
上
。
我
已经使用Gensim
word2vec
来
训练
模型
,但是
我
无法在向量空间中获得具有相似含义
的
术语。 近义词之间没有同义词
的
关系。它们
的
相似性就像
浏览 1
提问于2016-02-28
得票数 1
1
回答
理解gensim
Word2Vec
most_similar三个单词
的
结果
、
、
、
我
以不同
的
方式用三个词"1“、"2”、"3“来构造句子,并观察到每个单词
的
向量不变。以下是不同
的
句子第2类:["1“、"2”、"3"]
我
正在培训
Word2Vec
模型
如下 model =
Word2Vec
model
浏览 0
提问于2020-01-07
得票数 1
1
回答
如何从预先
训练
的
模型
中获得Gensim中
的
word2vec
训练
损失?
、
我
有一些预先
训练
好
的
word2vec
模型
,
我
想用相同
的
语料库
对它们进行评估。在给定
模型
转储文件和内存中
的
语料库
的
情况下,有没有办法获得原始
的
训练
损失?
浏览 0
提问于2019-03-30
得票数 0
1
回答
Word2Vec
本身是判别性
模型
还是生成性
模型
?
、
、
、
、
我
想知道
Word2Vec
本身是一个判别性
模型
还是生成性
模型
?然而,单词嵌入是一种副产品,它描述了
训练
语料库
中标记之间
的
关系。考虑到一个用分割
语料库
训练
的
Word2Vec
模型</em
浏览 0
提问于2019-04-28
得票数 0
1
回答
Gensim
Word2Vec
训练
语料库
中
的
重复
、
、
、
、
我
用Gensim
训练
一个
Word2Vec
嵌入在不同
的
语料库
上
,属于不同
的
年份,比较嵌入向量。
我
的
问题是:如果
我
重复一特定年份
的
文档两次,而另一年
的
文档只重复一次,那么由此产生
的
嵌入是否给重复
的
文档增加了更大
的
权重?
我
想要建立一个
语料库
,对最近
的
文件给予更多
的
浏览 4
提问于2021-08-21
得票数 0
回答已采纳
1
回答
如何计算Gensim
Word2Vec
模型
中
的
嵌入词数
、
、
我
正在尝试使用Gensim库创建Pub中央
语料库
的
Word2Vec
模型
,并希望将单词嵌入
的
总数限制在10亿左右。
我
到处搜索,无法找到:( a)如
何在
保存
的
模型
中计算单词嵌入
的
总数;( b)如
何在
训练
模型
时限制嵌入
的
总数(一旦达到10亿,然后停止)。 请原谅
我
那些愚蠢
的
问题。
浏览 0
提问于2018-08-18
得票数 2
2
回答
我
可以使用公共预培训
的
word2vec
,并继续培训它
的
领域特定
的
文本?
、
、
我
有一套来自服装领域
的
评论,大约100000篇评论(200万字)。
我
想
训练
word2vec
用它做一些很酷
的
NLP员工。 然而,规模不足以创建足够
的
word2vec
模型
,它需要数十亿字。因此,我们
的
想法是使用公共
语料库
(
如
维基百科),甚至使用一些预先
训练
过
的
模型
(例如,gensim酷框架)并添加我
的
领域特定文本。
浏览 0
提问于2018-08-21
得票数 5
1
回答
Gensim
的
Word2Vec
not training提供
的
文档
、
、
我
正面临着使用
Word2Vec
进行Gensim
训练
的
问题。model.wv.vocab没有从
训练
好
的
语料库
中得到更多
的
单词,只有来自初始化指令
的
单词!事实
上
,在多次尝试
我
自己
的
代码后,即使是官方网站
的
示例也不起作用!
我
在代码中
的
许多地方尝试过保存
模型
,甚至尝试在
训练
指令<em
浏览 10
提问于2019-04-20
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在 7 个简单步骤中训练自己的 AI 推理模型(类 DeepSeek-Level)
手把手教你NumPy来实现Word2vec
NLP之文本分类:“Tf-Idf、Word2Vec和BERT”三种模型比较
Word2Vec——深度学习的一小步,自然语言处理的一大步
使用Python和keras进行文本分类(下)
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券