腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6092)
视频
沙龙
1
回答
为什么
填充
词汇表
的
困惑
在
nltk.lm
二元
语法
中
是
不定式
?
python
、
nltk
我正在测试一个文本
的
语言模型
的
perplexity度量: train_sentences = nltk.sent_tokenize(train_text) from
nltk.lm
import Vocabulary print("len: ",len(sentence
浏览 13
提问于2019-03-05
得票数 3
1
回答
使用countVectorizer计算我自己
在
python
中
的
词汇量
python
、
countvectorizer
Data tracking']my_vocabulary= [‘was the fallacy’, ‘free to’, ‘stripped-down’, ‘ever more’, ‘of the workforce’, ‘the traits needed’] 重点
是
我
的
词汇表
中
的
每个单词都是
二元
或三元词。我
的
词汇表
包括了我
的
文档集中所有可
浏览 51
提问于2018-04-03
得票数 4
回答已采纳
1
回答
在
tf-idf中使用三元组时,我是否应该包括单元组和双元组?
nlp
、
nltk
、
tf-idf
、
n-gram
当我使用
二元
组时,我将
二元
组
的
列表附加到单元组,并将其用作我
的
语料库。对于三元模型,我将三元模型添加到unigram
中
,但忽略了
二元
模型。这是正确
的
方法吗,或者如果我想合并三元模型,那么包含
二元
模型会更好吗?相反,这个过程应该是:unigram -> unigram+
二元
语法
-> unigram+
二元
语法
+三元
语法
?
浏览 1
提问于2018-09-18
得票数 0
1
回答
如何在countVectorizer中使用
二元
+三元+词标词汇?
machine-learning
、
nlp
、
text-classification
、
countvectorizer
我读了一篇研究论文,作者使用了以下几种方法: bigrams + trigrams + word-marks vocabulary 他在这里所说
的
单词标记,指的是特定于某种方言
的
单词。如何在countVectorizer
中
调整这些参数? 单词标记 这些
是
单词标记
的
例子,但我没有,因为我
的
是
阿拉伯语。所以我翻译了它们。word_marks=['love', 'funny', 'happy', 'ama
浏览 23
提问于2019-05-11
得票数 0
回答已采纳
1
回答
如何使用nltk计算
困惑
python-3.x
、
nltk
这是我代码
的
一部分:raw = fp.read()words = nltk.tokenize.word_tokenizebigrams = ngrams(words,2, left_pad_symbol='<s>', right_pad_symbol=</s>)
在
旧版本
的
nltk
中
,我
在
perplex
浏览 4
提问于2019-03-01
得票数 3
回答已采纳
1
回答
如何在R中使用wordVectors包
中
的
word2phrase函数来获取ngram?
r
、
word2vec
我想使用wordVectors包
中
的
word2phrase()函数来生成一些ngram,以便随后使用train_word2vec()进行训练。第二次运行时,我得到了以下输出消息:Words in train file: 258092 因此,每次我运行它时,“训练文件
中
的
单词但是当我检查输出文件"ngrams.txt“时,并没有什么真正
的
变化:我
在
文件
中
只有1-gram和2-gram
浏览 0
提问于2017-03-25
得票数 2
1
回答
如何在python中计算多个输入
中
的
二元
语法
python
在
我开始之前,这里
是
我
的
学习材料(Grok Learning,Python)
中
的确切说明:“编写一个程序,从用户那里读取多行输入,其中每行都是一个空格分隔
的
单词句子。然后,你
的
程序应该在所有输入句子中计算每个
二元
语法
出现
的
次数。通过将输入
的
句子转换为小写字母,应该以不区分大小写
的
方式处理
二元
语法
。一旦用户停止输入,您
的
程序应该打印出出现多次<em
浏览 1
提问于2018-05-21
得票数 0
1
回答
如何正确使用mask_zero=True进行Keras嵌入预训练权值?
python
、
tensorflow
、
keras
、
word-embedding
如果我也
在
设置Embedding,那么我很
困惑
如何为Keras mask_zero=True层设置我自己
的
预先训练过
的
权重。这是一个具体
的
玩具例子。]我想嵌入长达5个字
的
句子,所以
在
将它们输入嵌入层之前,我必须将它们零
填充
。我想掩盖零,以便更多
的
层不使用它们。 读取用于嵌入
的
Keras文档时,它说0值不能出现在我
的
词汇表
中
浏览 1
提问于2018-07-17
得票数 6
回答已采纳
1
回答
为什么
语言模型
中
的
“添加一个平滑”不计算分母
中
的
</s>
nlp
、
language-model
英语不是我
的
母语,对于任何
语法
错误,我深表歉意。我
在
语言模型中看到了许多关于添加一次平滑
的
文档,我仍然对公式
中
的
变量V感到非常
困惑
:对于这个例子,语料库和我使用
的
是
二元
语法
V将是11,因为w_i-1,w
的
组合计数
是
11。但是我发现它没有包括case ,<em
浏览 0
提问于2018-11-08
得票数 1
1
回答
使用rdoc:有什么方法可以给call-seq增加缩进吗?
ruby
、
rdoc
在这种环境
中
不是一个选项。所以我使用rdoc,call-seq通常很好,但我想为始终以块/产出样式使用
的
call-seq添加缩进,如下所示: someFunc { } 这是可悲
的
。我知道我可以使用一个单独
的
代码块作为示例,但这实际上
是
通用API
的
一部分,说明应该如何调用它,如果我可以使用call-seq (而不是代码块丑陋
的
反转颜色),那就太好了。我猜由于rdoc
浏览 3
提问于2021-10-27
得票数 0
1
回答
两段几乎相同
的
代码,但其中一段会在python中产生localunbounderror。
python
、
local
因此,我创建了两个随机单词生成器,一个基于
二元
语法
,另一个基于三元
语法
。
在
每种情况下,我都设置了一个字典(或者叫做bigrams,它有两个嵌套
的
字典,或者trigram,它有三个嵌套
的
字典)...and有很多其他
的
代码,但是下面这一行
在
trigram生成器
中
引起了一个问题:不过,在这里,
在
我
的
二元
语法
生成器(可以正常工作)
中
,变量"Fo
浏览 2
提问于2012-10-13
得票数 2
回答已采纳
2
回答
递归神经网络
中
零
填充
与字符
填充
的
区别
neural-network
、
nlp
、
rnn
、
sequence-to-sequence
为了使RNN高效地工作,我们将问题向量化,生成一个形状
的
输入矩阵。其中m
是
例句
的
数目,例如句子,max_seq_len
是
句子
的
最大长度。有些例子
的
长度比这个max_seq_len小。解决办法之一
是
把这些句子填平。 [
浏览 0
提问于2021-02-27
得票数 0
回答已采纳
1
回答
在
python中使用sklearn for n-gram计算TF-IDF
python
、
scikit-learn
、
nlp
、
tf-idf
我有一个包含n-gram
的
词汇表
,如下所示。
中
打印配方1
的
标记或n元
语法
以及tF-idf值,如下所示。in feature_index]) print(w, s) 我得到
的
结果
是
但是,
在
计算TF-IDF值时,我
的
代码不能检测n元
语法
(
二元
语法
),比如b
浏览 0
提问于2017-10-05
得票数 9
回答已采纳
1
回答
为什么
MALLET LDA需要保持顺序?
java
、
machine-learning
、
text-mining
、
mallet
在
MALLET文档
中
,主题模型训练需要--keep-sequence标签(详情请参见:)感谢您阅读这篇文章。
浏览 1
提问于2015-03-13
得票数 2
2
回答
为什么
input_dim需要用
词汇表
+ 2?
python
、
nlp
、
deep-learning
、
keras
、
keras-layer
在
Embedding
的
Keras文档
中
,对mask_zero
的
解释
是
mask_zero:输入值0是否
是
一个特殊
的
“
填充
”值,需要屏蔽。这是有用
的
,当使用递归层,可能采取可变长度
的
输入。如果这是真,那么模型
中
的
所有后续层都需要支持掩蔽,否则会引发异常。因此,如果mask_zero设置为True,则无法
在
词汇表
中使用索引0 (input_dim
浏览 3
提问于2017-04-05
得票数 8
回答已采纳
1
回答
支持左递归和
语法
歧义
的
只标头线性时间C++11聚乙二醇解析器生成器
c++
、
c++11
、
parsing
、
template
、
generator
我已经将我
的
原始解析器生成器重写为一个只使用标头库
的
库,该库使用模板和函数,以提高类型
的
安全性和清晰度。生成
的
解析器创建一个抽象
语法
树,它可以使用functionals和访问者模式进行有效
的
评估。解析器存储中间步骤,从而保证线性解析时间(如果
语法
包含左递归,则在最坏情况下为平方)。我
的
目标
是
创建一个通用
的
C++解析器生成器,重点
是
可用性。,其中,如果x
是
一个变量或b)一种类型,显然
浏览 0
提问于2014-12-08
得票数 27
回答已采纳
1
回答
bigrams
的
CountVectorize词汇规范
python
、
countvectorizer
以下代码适用于逐个单词
的
大小写,但不适用于
二元
语法
:Python返回大概是因为我向
二元
语法
向量计数
浏览 0
提问于2018-07-03
得票数 0
1
回答
尝试用gensim模仿Scikit ngram
python
、
scikit-learn
、
gensim
我正在尝试用gensim模拟CountVectorizer()
中
的
n_gram参数。我
的
目标
是
能够将LDA与Scikit或Gensim一起使用,并找到非常相似的
二元
语法
。例如,我们可以找到以下带有scikit
的
二元
模型:"abc computer","binary unordered“和gensim "A survey","Graph minors”…… 我在下面附上了我
的
代
浏览 1
提问于2017-05-11
得票数 0
2
回答
有没有办法将预处理器变量设置为属性
的
值?
wix
、
xsd
、
wix3
我有一个包含以下代码
的
WiX包含文件 <Property Id="DynamicLanguageCode" Value="[SystemLanguageID>现在,
在
我
的
WiX脚本
的
产品标签
中
,我想将语言属性设置为productLanguage
的
值,因为它只接受可本地化
的
整数。有没
浏览 3
提问于2010-01-29
得票数 9
回答已采纳
2
回答
共享来自不同命名空间
的
部分
ruby-on-rails
、
actionview
rails 6.1除了复制意见之外,还有人知道我如何做到这一点吗?
浏览 8
提问于2022-03-31
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
编码、标记和实现:一种高效可控的文本生成方法
Roblox 和互联网上的“Oof”是什么意思?
Tensorflow2.1实践-IMDB影评文本分类(Kears
学习 Lucene 原来可以那么简单!
NLP之文本分类:“Tf-Idf、Word2Vec和BERT”三种模型比较
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券