腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4826)
视频
沙龙
1
回答
如
何在
java
中
使用
spark
以
word
格式
查看
LDA
主题
建模
、
、
、
、
我正在尝试
使用
Java
中
的Apache
Spark
ML创建一个
LDA
模型。输入文档为字符串
格式
。我得到的
主题
是数字
格式
,而不是
word
格式
。我发现了一个类似的问题,但遗憾的是,解决方案是在R-
中
,但我正在
使用
Java
语言中的
Spark
的ML库寻找解决方案。 任何帮助都将不胜感激。谢谢!
浏览 3
提问于2016-08-30
得票数 1
1
回答
如
何在
twitter数据上形成
LDA
文档
、
、
、
、
我们需要对直播流上的twitter推文进行
主题
建模
,输入使
spark
流,并将数据存储到HDFS。在收集的数据上运行批处理作业。批处理任务是在tweet
中
查找底层
主题
。为此,我们
使用
潜在狄利克雷分配(
LDA
)算法来找出
主题
。我们接收最大字符数为140的推文形式的数据,并将其存储为HDFS
中
的一行。我是
LDA
算法的新手,对此有基本的了解,因为
主题
模型是基于n个文档
中
的单词共现得出的 我
浏览 1
提问于2017-04-17
得票数 1
1
回答
"main“
java
.lang.ClassCastException:[Lscala.Tuple2;在
Spark
MLlib
LDA
中
不能强制转换为scala.Tuple2
、
、
、
、
我正在
使用
Spark
1.3.0 (Scala2.10.X) MLlib
LDA
算法和
Spark
Java
API。当我试图在运行时从
LDA
模型
中
读取文档
主题
分布时,我遇到了以下问题。"main“
java
.lang.ClassCastException:[Lscala.Tuple2;不能强制转换为scala.Tuple2DistributedLDAModelldaModel = new
浏览 0
提问于2015-07-29
得票数 1
4
回答
短文Python的
主题
建模
、
、
、
、
我想对短文做
主题
建模
。我对
LDA
做了一些研究,发现它与短文不太相符。哪些方法会更好,它们有Python实现吗?
浏览 12
提问于2020-06-03
得票数 5
回答已采纳
1
回答
无法解析维基百科数据的星火Scala : enwiki_latest_articles xml bz2
、
、
、
我试图
使用
spark
算法对维基百科数据进行
主题
建模
:输入文件基本上是一个包含大量xml文件的大型bz2文件。我在
spark
网站上
使用
了基本的
spark
代码:val ssqlc:SQLContext = new org.apache.
spark
.sql.SQLContextval ldaModel = new
LDA
().setK(25).ru
浏览 4
提问于2016-07-28
得票数 0
1
回答
如何对查询搜索结果进行
主题
建模
、
、
对于结果集中排名较高的文档,我如
何在
搜索引擎返回的结果
中
建模
主题
? 我正在
查看
的用例涉及提取搜索结果
中
返回的最重要
主题
。例如:如果用户搜索一个查询q1,该查询D1...Dn返回得分为S1...Sn的文档(按降序排列),那么我提出这样一个概念,即这样一组文档的
主题
以
结果集中得分较高的文档表示得更好。是否有可能将这些信息合并到像
LDA
这样的
主题
建模
算法
中
?
浏览 0
提问于2020-03-06
得票数 1
回答已采纳
2
回答
使用
主题
建模
或另一种NLP方法,是否有可能为定义得更好的
主题
模型定义属于
主题
/类别的单词?
、
、
、
、
在
使用
主题
建模
和考虑
LDA
& LSA方法时,我遇到了一个问题,然而,我发现有些
主题
并没有像我喜欢的那样被精确地定义。是否有可能将单词定义为
主题
,
以
帮助机器更好更容易地学习?如前所述,我尝试了
LDA
和LSA技术来进行
主题
建模
,发现
LDA
是最准确的,其一致性评分为0.46,并重新定义了
主题
名称。但是,
主题
中的单词并不反映
主题
名称,这需要对模
浏览 8
提问于2022-03-31
得票数 1
回答已采纳
1
回答
计算一致性评分
中
的错误- AttributeError:'dict‘对象没有属性'id2token’
、
、
、
、
我是NLP的初学者,这是我第一次做
主题
建模
。我能够生成我的模型,但是我不能产生一致性度量。id2
word
这是我的模型:
lda
= models.LdaModel(corpus=corpus, id2
word
=id2
word
, num_topics=
浏览 6
提问于2019-11-25
得票数 0
回答已采纳
1
回答
LDA
-如何规范和“添加平滑常数”到原始文档-
主题
分配计数?
、
现在,我已经通过Jonathan的“
LDA
”包
中
的
lda
函数运行了一个数据集(注:这与“
主题
模型”包不同)。下面是一个可复制的示例,它
使用
在安装和加载'
lda
‘包时自动出现的cora数据集。此组件显示分配给20个
主题
中的每个
主题
的每个文档包含的单词数(基于我选择的K值)。例如,一个文档可能有4个单词分配给
主题
3,12个单词分配给
主题
19,在这种情况下,文档被分配给
主题
19。$documen
浏览 2
提问于2019-12-11
得票数 1
5
回答
如何确定
LDA
的
主题
数量?
、
、
我是
LDA
的大一新生,我想在我的工作中
使用
它。然而,也出现了一些问题。我的问题是“一系列”是什么意思?
浏览 0
提问于2013-07-02
得票数 23
3
回答
从Pyspark模型中提取文档
主题
矩阵
、
、
、
我已经通过Python成功地训练了
spark
中
的
LDA
模型:model=
LDA
.train(corpus,k=10)这很好,但我现在需要
LDA
模型的文档
主题
矩阵,但据我所知,我所能得到的只有单词-
主题
,
使用
model.topicsMatrix()。是否有办法从
LDA
模型
中
获得文档
主题
矩阵,如果没有,
浏览 2
提问于2015-10-12
得票数 16
回答已采纳
1
回答
火花的潜在Dirichlet分配(
LDA
)
、
、
= LDAModel\1 2 6 0 2 3 1 1 0 0 31 4 1 0 0 4 9 0 1 2 04 4 0 3 4 2 1 3 0 0 0 2 8 2 0 3 0
浏览 2
提问于2017-02-05
得票数 13
回答已采纳
3
回答
使用
Word
2Vec进行
主题
建模
、
、
我读到过,最常见的
主题
建模
技术(从文本中提取可能的
主题
)是潜在狄利克雷分配(
LDA
)。你认为为了一些研究而遵循这种方法有意义吗?最后,我感兴趣的是根据
主题
从文本中提取关键字。
浏览 3
提问于2015-10-07
得票数 19
2
回答
gensim
LDA
主题
模型
中
的固定大小
主题
向量寻找相似文本
、
、
、
、
我
使用
gensim
LDA
主题
建模
来查找每个文档的
主题
,并通过比较接收到的
主题
向量来检查文档之间的相似性。每个文档都有不同数量的匹配
主题
,因此向量的比较(根据余弦相似性)是不正确的,因为需要相同长度的向量。这是相关代码:
lda
_model_bow = models.LdaModel(corpus=bow_corpus, id2
word
=dictionary, num_topics=3, passes=1=[
lda
_
浏览 0
提问于2018-11-21
得票数 1
回答已采纳
2
回答
主题
建模
:
LDA
vs LSA vs ToPMine
、
、
、
我刚开始学习
主题
建模
。ToPMine比
LDA
和LSA好吗?我知道
LDA
和LSA已经存在了很长时间,并且得到了广泛的应用。 谢谢
浏览 0
提问于2022-01-20
得票数 2
回答已采纳
1
回答
基于R text2vec包和LDAvis在shinyApp
中
的
LDA
主题
模型
、
、
、
、
下面是
使用
R text2vec包进行
LDA
主题
建模
的代码:
word
_tokenizer v = create_vocabulary= text2vec::
LDA
$new(n_topics = 10
浏览 1
提问于2018-09-11
得票数 1
回答已采纳
2
回答
实现替代形式的
LDA
、
、
、
、
我正在
使用
潜在的狄利克雷分配与来自六个不同来源的新闻数据语料库。我对
主题
的演变、涌现很感兴趣,并且想要比较这些来源随着时间的推移是如何相似和不同的。我知道有许多经过修改的
LDA
算法,例如作者-
主题
模型、随时间变化的
主题
等。 我的问题是,这些替代模型规范
中
很少有
以
任何标准
格式
实现的。有一些在
Java
中
可用,但大多数只
以
会议论文的形式存在。我精通R和jags,如果
使用
足够长的时间,我可
浏览 2
提问于2012-04-12
得票数 7
2
回答
LDA
vs
Word
2Vec。预测邮件收件人的正确解决方案是什么?
、
、
、
所以我正在做一些关于
主题
建模
和词嵌入的研究,发现
LDA
和
Word
2Vec是我可以
使用
的两种可能的算法。 我想向你请教一下你认为哪一个更适合这个场景。我的一个想法是,
使用
LDA
从以前的消息中提取
主题
,并根据
主题
在过去被讨论的次数(即发送的消息)对消息的收件人进行排名。如果我有
主题
的映射和您谈论它的用户的排序列表(根据频率排名),那么当用户键入消息时,我可以再次对消息运行
主题
提取,预测消息是关于什么,然
浏览 1
提问于2017-10-20
得票数 1
3
回答
LDA
模型对句子(而不是文档)聚类/分类有用吗?
、
、
、
、
经过预处理(删除停用词和词干)后,我
使用
特征提取库(
如
word
2vec,tf-idf)和聚类算法(k-mean)对我的句子进行无监督句子分类-输出是相当可接受的。然而,我正在寻找更多关于聚类算法的选择,特别是想尝试
LDA
来进一步提高输出质量。然而,我遇到了的论文,列出了
LDA
上用于句子分类的一些事实。我的问题是-在句子(而不是文档)分类中
使用
LDA
会有帮助吗?此外,除了K-mean之外,还有什么其他非监督学习可以很好地用于句子分类。预先感谢您的所有建议。注意:我正在<e
浏览 0
提问于2017-10-24
得票数 1
1
回答
理解
LDA
/
主题
建模
--过多的
主题
重叠
、
、
、
、
我对
主题
建模
/潜在Dirichlet分配很陌生,很难理解如何将这个概念应用于我的数据集(或者它是否是正确的方法)。 我有少量的文学文本(小说),并想提取一些一般性的话题
使用
LDA
。我正在
使用
Python
中
的gensim模块以及一些nltk特性。在一次测试
中
,我把原来的课文(只有6篇)分成30块,每篇有1000个单词。然后,我将块转换成文档项矩阵,并运行算法。= gensim.models.ldamodel.LdaModel(corpus = corpus, i
浏览 0
提问于2017-09-20
得票数 10
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark平台下基于LDA的k-means算法实现
Python之LDA主题模型算法应用
R语言对NASA元数据进行文本挖掘的主题建模分析
python主题LDA建模和t-SNE可视化
Spark-2
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券