腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
潜在
的
dirichlet
分配
来
捕获
二元
语法
主题
而
不是
一元
语法
python
、
nltk
、
gensim
、
n-gram
我试着做一个类似this问题
的
尝试 LDA原始输出 Uni-grams topic2 -green plants,carbon dioxide 答案是这样
的
我应该做什么更新才能只有
二元
语法
?
浏览 14
提问于2020-11-03
得票数 1
回答已采纳
1
回答
如何实现
潜在
的
Dirichlet
分配
,以在
主题
中提供
二元
/三元
语法
而
不是
一元
语法
python
、
scikit-learn
、
nlp
、
gensim
、
lda
我
使用
gensim LDAModel进行客户评论
的
主题
提取,如下所示:dictionary.filter_extremespasses = 20, alpha = "auto") 这将在如下
主题
中返回我偶然发现了sklearn
的
LatentDirichletAllo
浏览 1
提问于2017-05-19
得票数 1
1
回答
如何利用
潜在
Dirichlet
分配
计算
的
词-
主题
和
主题
-词矩阵构造文档-
主题
矩阵?
python
、
apache-spark
、
lda
如何利用
潜在
Dirichlet
分配
计算
的
词-
主题
和
主题
-词矩阵构造文档-
主题
矩阵?我似乎在任何地方都找不到它,甚至连LDA,M.Blei
的
作者也找不到。Gensim和sklearn只是工作,但我想知道如何
使用
这两个矩阵
来
构造文档
主题
-矩阵(Spark只给出两个矩阵,
而
不是
文档-
主题
矩阵)。
浏览 0
提问于2016-07-15
得票数 2
1
回答
在tf-idf中
使用
三元组时,我是否应该包括单元组和双元组?
nlp
、
nltk
、
tf-idf
、
n-gram
当我
使用
二元
组时,我将
二元
组
的
列表附加到单元组,并将其用作我
的
语料库。对于三元模型,我将三元模型添加到unigram中,但忽略了
二元
模型。这是正确
的
方法吗,或者如果我想合并三元模型,那么包含
二元
模型会更好吗?相反,这个过程应该是:unigram -> unigram+
二元
语法
-> unigram+
二元
语法
+三元
语法
?
浏览 1
提问于2018-09-18
得票数 0
1
回答
如何仅生成
二元
/三元语料库
python
、
nlp
、
gensim
Gensim有没有办法在单词列表中严格生成
二元
语法
和三元
语法
? 我可以成功地生成
一元
、
二元
、三元,但我只想提取
二元
、三元。mayor', 'of', 'new', 'york', 'was', 'there'],["i","love","new","york"],["new",&q
浏览 1
提问于2020-01-17
得票数 0
1
回答
将招聘广告与给定
的
一组类别进行比较(每组类别都由术语组成)
supervised-learning
在最近
的
一篇研究论文中,我计划做以下几件事,我恳请你提供建议。现在,我想了解
的
是,哪些招聘广告以及多少招聘广告涵盖了这15个类别中
的
每一个方面。结果可能是,例如,作业广告1包含与类别2、5、8
的
描述相匹配(或接近)
的
内容,但遗漏了允许引用其余类别
浏览 0
提问于2018-10-07
得票数 0
1
回答
我们可以
使用
一个自制
的
语料库
来
训练
使用
gensim
的
LDA吗?
python
、
lda
、
gensim
我必须应用LDA (
潜在
Dirichlet
分配
)从我收集
的
包含20,000个文档
的
数据库中获取可能
的
主题
。 如何
使用
这些文档
而
不是
其他可用
的
语料库(如Brown语料库或英语维基百科)作为训练语料库?
浏览 0
提问于2013-04-28
得票数 9
回答已采纳
1
回答
如何确定两个代码段在功能上是否相同?
machine-learning
、
nlp
、
artificial-intelligence
、
language-features
、
feature-extraction
函数相似的意思是,当输入相同时,它们应该产生相同
的
输出。我
使用
以下方法从给定
的
代码片段中提取功能集:
语法
方法:
使用
基本
的
NLP技术,如词干、分裂等。语义方法:
使用
AST规范代码片段--例如:转换‘for’to‘while’等。在形成标记之后,我
使用
主题
建模算法,如
潜在
Dirichlet
分配
算法、概率
潜在
语义索引算法等,在给定
的
代码段中查找<
浏览 4
提问于2015-08-25
得票数 0
1
回答
如何测试文本聚类应用程序?
nlp
、
data-mining
、
text-mining
我正在开发一个根据
主题
对文档进行集群
的
应用程序。我
使用
LDA (
潜在
的
Dirichlet
分配
)算法。现在原型已经准备好了,也有了一些结果。 这些
主题</em
浏览 2
提问于2014-01-10
得票数 0
1
回答
如何
使用
Weka尝试不同
的
功能集
machine-learning
、
weka
我有一个分类问题,为了解决这个问题,我计划
使用
不同
的
特征集,比如
一元
语法
和
二元
语法
,也许以后会更多。我想用这些特征集
的
不同组合进行实验。做这件事最好
的
方法是什么?我必须为不同
的
功能集组合准备不同
的
文件吗?
浏览 3
提问于2013-03-12
得票数 1
1
回答
不
使用
NLTK计算字符串中
的
二元
语法
python
、
python-3.x
、
string
我一直在尝试创建一个代码,它可以看到一个
二元
语法
在一个字符串中出现了多少次(如果你不知道,
二元
语法
包含两个单词,比如'if you‘或'you’t‘)。我尝试将.join函数用于剪切列表,但是,它只返回一个单词,
而
不是
两个单词。我
使用
了.join函数并
使用
了一个for循环,该循环将一直持续到n-1 (其中n是单词
的
长度)时间,并且它将
使用
从n-1到n
的
空格连接两个列表。words
浏览 0
提问于2019-09-19
得票数 0
3
回答
如何在python中
使用
循环计算
二元
语法
python
、
loops
、
n-gram
我有一个关于python
的
特定编码问题。我想要得到
的
是
二元
语法
计数,
而
不是
一元
语法
计数。Count = defaultdict(int) for m in l['reviews'].split():我想
使用
类似的代码,
而
不是
使用
Stackoverflow中已经存在
浏览 0
提问于2015-11-23
得票数 1
2
回答
将优先表转换为适用于递归下降
的
语法
?
algorithm
、
parsing
如果我们有一种只包含原子元素以及
一元
和
二元
运算符
的
语言:unary operators: !~ + -然后我们可以定义一个
语法
:UNOP := !| ~ | + | -EXPR := ATOM | UNOP EXPR | EXPR BINOP EXPR 然而,这种
语法
会导致不明确
的
解
浏览 1
提问于2012-12-20
得票数 3
回答已采纳
1
回答
LDA检测新出现
的
主题
python
、
windows
、
machine-learning
、
gensim
、
lda
我有一个方向
的
问题-我已经建立了一个
潜在
的
Dirichlet
分配
使用
Gensims Mallet包装。我曾经在OldDataSet.csv上训练过这个模型,并测量了它
的
一致性。我一直在
使用
它
来
传递
主题
分配
的
NewDataSet.csv。我需要一些指导,说明我如何能够预测我
的
预先训练过
的
模型如何准确地
分配
NewDataSet.cs
浏览 1
提问于2019-05-07
得票数 1
回答已采纳
1
回答
如何
使用
BigQuery查找带有reddit数据集
的
n元
语法
sql
、
google-bigquery
、
reddit
我正在查看reddit数据集,以及一个
使用
BigQuery查找
二元
语法
的
-然而,这个问题
的
答案并不适用于URL、引号等。有没有更好
的
方法
来
做到这一点,并将其推广到三元
语法
而
不是
二元
语法
?
浏览 3
提问于2016-02-12
得票数 1
1
回答
主题
与
潜在
的
Dirichlet
分配
machine-learning
、
lda
、
topic-modeling
潜在
Dirichlet
分配
(LDA)是一种生成模型,它产生一个
主题
列表。每个
主题
都是由单词
的
分布
来
表示
的
。假设每个
主题
都用它
的
前40个单词
来
表示。给定一个新文档,我如何确定哪些
主题
构成了这个新文档,
而
不需要再次运行lda。换句话说,如何
使用
估计
的
主题
来
推断新
的
未见文档
浏览 3
提问于2014-10-14
得票数 1
回答已采纳
6
回答
潜
Dirichlet
分配
与递阶
Dirichlet
过程
nlp
、
topic-model
、
lda
潜
Dirichlet
分配
(LDA)和分级
Dirichlet
过程(HDP)都是
主题
建模过程。主要
的
区别是LDA要求指定
主题
的
数量,
而
HDP不需要。为什么会这样?这两种
主题
建模方法
的
区别、利弊是什么?
浏览 0
提问于2014-05-18
得票数 62
回答已采纳
0
回答
在R中
使用
unnest_tokens()在tidytext中保留标点符号
r
、
twitter
、
text-mining
、
punctuation
、
tidytext
我正在
使用
R中
的
tidytext包
来
做n元
语法
分析。 因为我分析tweet,所以我想保留@和#
来
捕获
提及、转发和标签。但是,unnest_tokens函数会自动删除所有标点符号并将文本转换为小写。我发现unnest_tokens有一个通过token='regex'
使用
正则表达式
的
选项,所以我可以自定义它清理文本
的
方式。但是,它只适用于
一元
语法
分析,
而
不适用于n元
浏览 19
提问于2017-06-13
得票数 8
1
回答
tf-以色列国防军和LDA在Google应用引擎上
的
应用
google-app-engine
、
scikit-learn
、
tf-idf
、
lda
、
gensim
我有一个python代码,它
使用
sklearn和gensim库
来
实现tf和LDA(
潜在
的
Dirichlet
分配
)。既然我想迁移到Google应用引擎,我就不能
使用
这两个库中
的
任何一个,因为它们还不受支持。是否有任何服务已经包括在谷歌应用引擎,我可以
使用
而
不是
这两个库做tf-以色列国防军和LDA?
浏览 3
提问于2014-04-19
得票数 1
回答已采纳
1
回答
具有朴素贝叶斯分类器
的
N-gram
python
、
nltk
、
n-gram
我是python
的
新手,需要帮助!我正在练习python NLTK文本分类。以下是我在上练习
的
代码示例from nltk import bigramsfrom
浏览 0
提问于2012-12-22
得票数 10
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python和Scala的操作符
几种常见的平滑算法
异常处理的通常处理方法浅见
自学编程第二十一课
程序员用一小时带你彻底掌握正则表达式!学不会就用来祭天!最全
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券