python做主题词提取_在gensim LdaModel中提取主题词概率矩阵_python 提取 - 腾讯云开发者社区

machine-learning、nlp、topic-modeling、topic-maps

我正在做主题建模，在删除停用词之后，给定的文本语料库在支持词的形式下有很多噪音。这些词具有很高的词频，但通过使用LDA以及其他有用的高频词，无助于形成主题词。怎样才能消除这种噪音？

浏览 1提问于2015-04-20得票数 0

1回答

在R中是否有一个函数可以根据其相邻的行元素返回dataframe的元素？

r、function、tidyverse、lda、topic-modeling

我正在做主题建模，并且我有一个数据数据(或tidyverse)，它的主题词概率如下所示：所有单词都会出现9次，因为我有一个包含9个主题的模型，它们的主题概率在beta列中找到。

浏览 2提问于2021-03-16得票数 0

回答已采纳

3回答

从PDF中提取/识别标题

python、pdf、nlp、ocr、pdf-scraping

除其他外，我需要提取它们的标题(不是文档名称，而是文本中的标题)。由于格式的范围，标题不在pdfs中相同的位置。此外，一些pdfs实际上是扫描图像(我需要在它们上使用OCR/光学字符识别)。到目前为止，我可以使用pdftotext提取给定边界框中的文本，并将其转换为文本文件。如果有一个标题，这可以让我捕获标题，但经常与其他无关的词包括在内。这也只适用于非图像pdfs。在某种程度上回答标题困境的一种方法是提取边框中的单词，使用文档的其余部分来识别文档中的哪些边框单词是文档的关键字，并从关键字中构造标题。这不会提取实

浏览 4提问于2019-03-22得票数 3

回答已采纳

1回答

提取重复重复单独列的字符串模式。

r、dplyr、tidyr、stringr

我正在尝试创建一个regrex模式，以提取{}中的主题词后面的字符，并将它们放在一个主要列中。但是，主题词在第2行中重复，我需要提取并组合后面两个{}中的所有字符。

浏览 7提问于2022-07-14得票数 0

回答已采纳

1回答

合流卡夫卡连接:新记录没有填充特定于表的主题

apache-kafka-connect、multi-tenant、confluent-platform、oracle19c

可能与重做日志主题(不兼容的重做模式或不兼容的重做主题本身？)不兼容。删除模式(、特定于表的或重做的逻辑模式？)或使用不同的重做日志主题可能解决此问题(是不同的重做主题？为什么？)

浏览 2提问于2021-11-24得票数 1

回答已采纳

1回答

如何将mallet用于主题建模API

java、mallet

这里有没有人成功地使用过mallet API进行主题建模。我发现很难理解，甚至直到我知道我不知道如何导入我的txt作为数据。你们知道什么好的资源来学习代码吗？我不认为mallet.cs.umass.edu是有用的。

浏览 15提问于2017-12-25得票数 0

2回答

如何在文本挖掘任务中处理文档中的拼写错误的单词？

nlp、spell-checking、misspelling

我有一组非正式的文档(几千个)，我想对它们应用主题建模(MALLET)。问题是，文档中有相当数量的拼写错误的单词。大多数都是故意的，比如缩写和当地的行话，比如‘’juz‘->’'just'，'alr‘->’->‘。由于不同作者独特的写作风格，存在着一些这样的变体。我的问题是，在对这些拼写错误的单词进行进一步的任务之前，我是否应该检查和更正这些拼写错误的单词，并可能将更正后的文本

浏览 6提问于2010-11-25得票数 1

回答已采纳

4回答

短文Python的主题建模

python、python-3.x、nlp、lda、topic-modeling

我想对短文做主题建模。我对LDA做了一些研究，发现它与短文不太相符。哪些方法会更好，它们有Python实现吗？

浏览 12提问于2020-06-03得票数 5

回答已采纳

1回答

如何用木槌提取主题词

machine-learning、mining、mallet

有人能帮助编写主题提取的命令吗?就像我在下面输入的主题提取命令一样，但是它会抛出异常。

浏览 1提问于2015-11-03得票数 1

回答已采纳

1回答

我可以在LDA中得到一个单词的主题分布吗？

python、gensim、lda、topic-modeling

我是LDA的新手，我想计算单词之间的主题相似度。我能得到一个单词的主题分布吗？如果是这样，我如何在gensim.ldamodel中做到这一点？

浏览 54提问于2021-04-18得票数 0

回答已采纳

4回答

如何使用函数打印标题词？

python

我需要一个在Python中的程序，它将从文件中读取并在屏幕上打印出标题词。

浏览 0提问于2015-05-23得票数 0

3回答

C#中的字符串操作:在`/‘上拆分

c#、string、file-io

我需要从题词文件(结构化文本文件)中提取墓碑数据。我应该从这个文件中提取死者的姓名、出生日期(或年龄)以及个人信息。应用程序应该能够分析原始文本文件，然后提取信息并以表格形式显示。我尝试过使用String.Split()和子字符串方法，但我无法让它为我工作；我只能在没有分隔符(Environment.Newline)的情况下获取原始数据，但我不知道如何提取特定的信息。

浏览 2提问于2010-01-16得票数 1

1回答

有没有一个免费的(或开源的)工具来聚合你的电子邮件收件箱，并告诉你有多少是由谁发送的？

web-apps、email、gmail

我很清楚解决方案，如邮件风暴和所有其他类似的电子邮件清洁解决方案。这些是SAAS工具的免费试用，然后是订阅付费的模式，我不感兴趣。我更感兴趣的是一个免费或开源的工具，即使有点复杂。我很好奇是否有人做了一个轻量级的简单工具，可以过滤大多数从X域收到的电子邮件，或在主题中重复的单词，等等。

浏览 0提问于2021-07-11得票数 0

1回答

在主题建模中使用Word2vec输出作为LDA的输入

machine-learning、deep-learning、topic-modeling

我读到过，最常见的主题建模技术(从文本中提取可能的主题)是潜在狄利克雷分配(LDA)。但最近我了解了另一个模型lda2vec。因为我正在做主题建模，需要一些新的方法。

浏览 16提问于2019-11-25得票数 1

6回答

Python数据库应用程序框架和工具

python、frame

我计划转到Python。什么是最好的开始工具。我需要做主机，交易表单，处理(后端)，报告和类似的事情。数据库应该是postgress或mysql。因为我是Python的新手，所以我知道除了Python，我还需要ORM和一个框架。我的应用程序与网站无关，但如果需要的话，也可以在网络上完成。如何选择工具组合的初始设置？

浏览 0提问于2009-06-20得票数 9

1回答

在gensim LdaModel中提取主题词概率矩阵

python、gensim、lda、topic-modeling

有没有办法提取这些信息？谢谢!

浏览 12提问于2017-02-17得票数 3

回答已采纳

1回答

Powershell:如何通过管道将-Split单词数组转换为命令字符串

arrays、excel、powershell、split

现在我需要从他们的职位中提取员工的名字。OrgChart2List.Cells.Item($Row, 1).Text)Field SuperintendentPM-Oliver Twist$AdminJobTitles =@("(TRIO)",) 我试着过滤掉所有的符号，数字和标题词

浏览 0提问于2021-02-04得票数 0

2回答

硒如何获得标题文本？

c#、selenium、gettext

<span class="Voting__button Voting__button-up">我试过这样做： textbox1.text= driver.findelement(by.xpath("//*[@id='posts_list']/ul/li[1]/div/div[2]/div[2]/div[2]/span[1]/span/span/a

浏览 1提问于2017-12-22得票数 1

回答已采纳

2回答

存储文本挖掘数据

python、database、data-mining、text-mining

为了提取主题，我使用了自然语言处理技术，这超出了本文的范围。我正在寻找特定的python方法来做到这一点。我研究了SQL和NoSQL数据库，也研究了pytables和h5py，但我不确定如何实现这样的系统。我关心的一个问题是，我如何处理不断增长的主题词汇表？

浏览 0提问于2012-06-30得票数 3

回答已采纳

1回答

支持向量机在蟒蛇LDA中的应用

machine-learning、text-mining、svm、topic-model、lda

我正在使用LDA提取主题。我想做主题建模，并使用主题作为功能来做文档分类。我知道我必须把特征向量发送到支持向量机，但我的问题是如何使这个特征向量发送到SVM？

浏览 0提问于2017-08-03得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何消除主题建模噪声？

在R中是否有一个函数可以根据其相邻的行元素返回dataframe的元素？

从PDF中提取/识别标题

提取重复重复单独列的字符串模式。

合流卡夫卡连接:新记录没有填充特定于表的主题

如何将mallet用于主题建模API

如何在文本挖掘任务中处理文档中的拼写错误的单词？

短文Python的主题建模

如何用木槌提取主题词

我可以在LDA中得到一个单词的主题分布吗？

如何使用函数打印标题词？

C#中的字符串操作:在`/‘上拆分

有没有一个免费的(或开源的)工具来聚合你的电子邮件收件箱，并告诉你有多少是由谁发送的？

在主题建模中使用Word2vec输出作为LDA的输入

Python数据库应用程序框架和工具

在gensim LdaModel中提取主题词概率矩阵

Powershell:如何通过管道将-Split单词数组转换为命令字符串

硒如何获得标题文本？

存储文本挖掘数据

支持向量机在蟒蛇LDA中的应用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐