腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何消除主题建模噪声?
machine-learning
、
nlp
、
topic-modeling
、
topic-maps
我正在
做主
题建模,在删除停用词之后,给定的文本语料库在支持词的形式下有很多噪音。这些词具有很高的词频,但通过使用LDA以及其他有用的高频词,无助于形成主
题词
。怎样才能消除这种噪音?
浏览 1
提问于2015-04-20
得票数 0
1
回答
在R中是否有一个函数可以根据其相邻的行元素返回dataframe的元素?
r
、
function
、
tidyverse
、
lda
、
topic-modeling
我正在
做主
题建模,并且我有一个数据数据(或tidyverse),它的主
题词
概率如下所示: 所有单词都会出现9次,因为我有一个包含9个主题的模型,它们的主题概率在beta列中找到。
浏览 2
提问于2021-03-16
得票数 0
回答已采纳
3
回答
从PDF中
提取
/识别标题
python
、
pdf
、
nlp
、
ocr
、
pdf-scraping
除其他外,我需要
提取
它们的标题(不是文档名称,而是文本中的标题)。由于格式的范围,标题不在pdfs中相同的位置。此外,一些pdfs实际上是扫描图像(我需要在它们上使用OCR/光学字符识别)。到目前为止,我可以使用pdftotext
提取
给定边界框中的文本,并将其转换为文本文件。如果有一个标题,这可以让我捕获标题,但经常与其他无关的词包括在内。这也只适用于非图像pdfs。在某种程度上回答标题困境的一种方法是
提取
边框中的单词,使用文档的其余部分来识别文档中的哪些边框单词是文档的关键字,并从关键字中构造标题。这不会
提取
实
浏览 4
提问于2019-03-22
得票数 3
回答已采纳
1
回答
提取
重复重复单独列的字符串模式。
r
、
dplyr
、
tidyr
、
stringr
我正在尝试创建一个regrex模式,以
提取
{}中的主
题词
后面的字符,并将它们放在一个主要列中。但是,主
题词
在第2行中重复,我需要
提取
并组合后面两个{}中的所有字符。
浏览 7
提问于2022-07-14
得票数 0
回答已采纳
1
回答
合流卡夫卡连接:新记录没有填充特定于表的主题
apache-kafka-connect
、
multi-tenant
、
confluent-platform
、
oracle19c
可能与重做日志主题(不兼容的重做模式或不兼容的重
做主
题本身?)不兼容。删除模式(、特定于表的或重做的逻辑模式?)或使用不同的重做日志主题可能解决此问题(是不同的重
做主
题?为什么?)
浏览 2
提问于2021-11-24
得票数 1
回答已采纳
1
回答
如何将mallet用于主题建模API
java
、
mallet
这里有没有人成功地使用过mallet API进行主题建模。我发现很难理解,甚至直到我知道我不知道如何导入我的txt作为数据。你们知道什么好的资源来学习代码吗?我不认为mallet.cs.umass.edu是有用的。
浏览 15
提问于2017-12-25
得票数 0
2
回答
如何在文本挖掘任务中处理文档中的拼写错误的单词?
nlp
、
spell-checking
、
misspelling
我有一组非正式的文档(几千个),我想对它们应用主题建模(MALLET)。问题是,文档中有相当数量的拼写错误的单词。大多数都是故意的,比如缩写和当地的行话,比如‘’juz‘->’'just','alr‘->’->‘。由于不同作者独特的写作风格,存在着一些这样的变体。我的问题是,在对这些拼写错误的单词进行进一步的任务之前,我是否应该检查和更正这些拼写错误的单词,并可能将更正后的文本
浏览 6
提问于2010-11-25
得票数 1
回答已采纳
4
回答
短文
Python
的主题建模
python
、
python-3.x
、
nlp
、
lda
、
topic-modeling
我想对短文
做主
题建模。我对LDA做了一些研究,发现它与短文不太相符。哪些方法会更好,它们有
Python
实现吗?
浏览 12
提问于2020-06-03
得票数 5
回答已采纳
1
回答
如何用木槌
提取
主
题词
machine-learning
、
mining
、
mallet
有人能帮助编写主题
提取
的命令吗?就像我在下面输入的主题
提取
命令一样,但是它会抛出异常。
浏览 1
提问于2015-11-03
得票数 1
回答已采纳
1
回答
我可以在LDA中得到一个单词的主题分布吗?
python
、
gensim
、
lda
、
topic-modeling
我是LDA的新手,我想计算单词之间的主题相似度。我能得到一个单词的主题分布吗?如果是这样,我如何在gensim.ldamodel中做到这一点?
浏览 54
提问于2021-04-18
得票数 0
回答已采纳
4
回答
如何使用函数打印标
题词
?
python
我需要一个在
Python
中的程序,它将从文件中读取并在屏幕上打印出标
题词
。
浏览 0
提问于2015-05-23
得票数 0
3
回答
C#中的字符串操作:在`/‘上拆分
c#
、
string
、
file-io
我需要从
题词
文件(结构化文本文件)中
提取
墓碑数据。我应该从这个文件中
提取
死者的姓名、出生日期(或年龄)以及个人信息。应用程序应该能够分析原始文本文件,然后
提取
信息并以表格形式显示。我尝试过使用String.Split()和子字符串方法,但我无法让它为我工作;我只能在没有分隔符(Environment.Newline)的情况下获取原始数据,但我不知道如何
提取
特定的信息。
浏览 2
提问于2010-01-16
得票数 1
1
回答
有没有一个免费的(或开源的)工具来聚合你的电子邮件收件箱,并告诉你有多少是由谁发送的?
web-apps
、
email
、
gmail
我很清楚解决方案,如邮件风暴和所有其他类似的电子邮件清洁解决方案。这些是SAAS工具的免费试用,然后是订阅付费的模式,我不感兴趣。我更感兴趣的是一个免费或开源的工具,即使有点复杂。我很好奇是否有人做了一个轻量级的简单工具,可以过滤大多数从X域收到的电子邮件,或在主题中重复的单词,等等。
浏览 0
提问于2021-07-11
得票数 0
1
回答
在主题建模中使用Word2vec输出作为LDA的输入
machine-learning
、
deep-learning
、
topic-modeling
我读到过,最常见的主题建模技术(从文本中
提取
可能的主题)是潜在狄利克雷分配(LDA)。但最近我了解了另一个模型lda2vec。因为我正在
做主
题建模,需要一些新的方法。
浏览 16
提问于2019-11-25
得票数 1
6
回答
Python
数据库应用程序框架和工具
python
、
frame
我计划转到
Python
。什么是最好的开始工具。我需要
做主
机,交易表单,处理(后端),报告和类似的事情。数据库应该是postgress或mysql。因为我是
Python
的新手,所以我知道除了
Python
,我还需要ORM和一个框架。我的应用程序与网站无关,但如果需要的话,也可以在网络上完成。 如何选择工具组合的初始设置?
浏览 0
提问于2009-06-20
得票数 9
1
回答
在gensim LdaModel中
提取
主
题词
概率矩阵
python
、
gensim
、
lda
、
topic-modeling
有没有办法
提取
这些信息? 谢谢!
浏览 12
提问于2017-02-17
得票数 3
回答已采纳
1
回答
Powershell:如何通过管道将-Split单词数组转换为命令字符串
arrays
、
excel
、
powershell
、
split
现在我需要从他们的职位中
提取
员工的名字。OrgChart2List.Cells.Item($Row, 1).Text)Field SuperintendentPM-Oliver Twist$AdminJobTitles =@("(TRIO)",) 我试着过滤掉所有的符号,数字和标
题词
浏览 0
提问于2021-02-04
得票数 0
2
回答
硒如何获得标题文本?
c#
、
selenium
、
gettext
<span class="Voting__button Voting__button-up">我试过这样做: textbox1.text= driver.findelement(by.xpath("//*[@id='posts_list']/ul/li[1]/div/div[2]/div[2]/div[2]/span[1]/span/span/a
浏览 1
提问于2017-12-22
得票数 1
回答已采纳
2
回答
存储文本挖掘数据
python
、
database
、
data-mining
、
text-mining
为了
提取
主题,我使用了自然语言处理技术,这超出了本文的范围。我正在寻找特定的
python
方法来做到这一点。我研究了SQL和NoSQL数据库,也研究了pytables和h5py,但我不确定如何实现这样的系统。我关心的一个问题是,我如何处理不断增长的主
题词
汇表?
浏览 0
提问于2012-06-30
得票数 3
回答已采纳
1
回答
支持向量机在蟒蛇LDA中的应用
machine-learning
、
text-mining
、
svm
、
topic-model
、
lda
我正在使用LDA
提取
主题。我想
做主
题建模,并使用主题作为功能来做文档分类。 我知道我必须把特征向量发送到支持向量机,但我的问题是如何使这个特征向量发送到SVM?
浏览 0
提问于2017-08-03
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫数据提取
Python提取网页图片
Python提取ABAQUS结果数据
我的地盘我做主—教你玩转Python函数和变量
Python提取域名的主域名
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券