腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Mallet
是否
会
停止
处理
大型
数据
集
?
python
、
nlp
、
text-mining
、
lda
、
mallet
我正在尝试使用LDA
Mallet
将我的tweet分配给主题,当我向它提供多达500,000条tweet时,它工作得很好,但当我使用我的整个
数据
集
时,它似乎
停止
工作,大约有2,500,000条tweet/
mallet
-2.0.8/'})
浏览 16
提问于2019-06-19
得票数 0
1
回答
如何
处理
Mallet
中cmd行中的空格?
java
、
windows
、
cmd
、
windows-7-x64
、
mallet
Mallet
导入-dir--输入E:\
Mallet
\
mallet
-2.0.8RC3\sample-data\web\en -输出E:\
Mallet
\topicout\weben.
mallet
-保持顺序-删除-
停止
词 上面没问题。Cmd提示错误
数据
\eco。您能帮我
处理
这个命令路径中的空格吗?输入“F:\0经济学家
数据
\eco
数据
\最终经济学家1991-2016年从Abi Proquest\所有文章\cn artic
浏览 2
提问于2019-03-09
得票数 1
回答已采纳
1
回答
用
Mallet
提示符批量标注序列
mallet
我已经在
mallet
的cmd提示界面上测试了的序列标记。现在,我想对许多文件进行培训,并分批运行测试。在
mallet
的命令提示符上也可以这样做吗?如果没有 在某个地方,我找到了对"“的引用,但是链接似乎被破坏了。
浏览 3
提问于2018-10-04
得票数 0
1
回答
马尔莱特作为二进制分类器在文档分类中的应用
c#
、
machine-learning
、
classification
、
document-classification
、
mallet
我已经使用
Mallet
实现了一个文档分类工具,它将文档的每一页分类为特定类别。我也尝试过Weka,但是
Mallet
在这方面比Weka聪明。我的做法如下: 该部分的实施已经取得了很好的成功率。对于我没有训练过并且与已知类别不同的文本文档
浏览 0
提问于2015-02-06
得票数 2
1
回答
MALLET
中主题模型的增量式训练
topic-modeling
、
mallet
这种类型的输出适合于暂停和重新启动培训” ..topic-state2.gz --input-model
浏览 1
提问于2014-04-04
得票数 5
1
回答
如何用木槌提取主题词
machine-learning
、
mining
、
mallet
我已经用
mallet
导入了文件,现在我想从导入的
数据
中建模主题,并将它们存储在文本文件中,在那里我将能够读取这些主题。有人能帮助编写主题提取的命令吗?bin\
mallet
导入-dir--输入D:\Data\test1 1--输出test1.
mallet
--保持顺序--删除--
停止
词--超
停止
词extra.txt 通过删除--保持顺序--删除--
停止
词--额外的
停止
词( extra.txt ),我可以在那之后导入文件,当我尝试训练模型异常时,
会
浏览 1
提问于2015-11-03
得票数 1
回答已采纳
1
回答
具有
大型
语料库的Python Gensim LDAMallet CalledProcessError (在小型语料库中运行良好)
python
、
gensim
、
lda
、
mallet
因为它在我的小语料库上工作得很好,我倾向于认为代码是好的,但我不确定还有什么
会
/可能导致这个错误…… 我试着按照建议的here编辑
mallet
.bat文件,但是没有用。':r'C:/
mallet
-2.0.8/'})ldamallet = gensim.models.wrappers.LdaM
浏览 37
提问于2019-04-03
得票数 1
5
回答
CRF++或CRFSuite
image-processing
、
android-activity
、
crf++
、
crfsuite
我开始使用crf++和crfsuite (两者使用非常相似的文件格式)。我想做一些与图像相关的事情(分割,活动识别等)。我的主要问题是如何构建训练文件。有人使用过crf和图像吗?有没有人给我解释一下或者提供一些文件给我学习。提前谢谢。
浏览 5
提问于2012-07-01
得票数 4
1
回答
线程安全还是多线程CRF在Java中支持连续变量?
java
、
multithreading
、
machine-learning
我想使用
Mallet
在一个相当大的
数据
集
上以离开一序列输出的方式运行条件随机字段。因此,我需要多线程计算来
处理
这个计算,要么通过并行训练多个CRF来
处理
,要么在单个线程上对每个CRF进行训练,或者2)以多线程的方式训练每个CRF。通过一个小小的调整,我设法让GRMM
处理
连续的输入。然而,对于GRMM,就我所能找到的而言,似乎没有像fst那样的通过选项2来支持多线程培训。我使用我自己的Minmo/
Mallet
github版本的
Mallet
,在
浏览 1
提问于2015-09-02
得票数 1
回答已采纳
1
回答
LDA多
处理
冷冻
python
、
multiprocessing
、
lda
、
mallet
所以我试着在
数据
集
上运行LDA槌。它接受引理标记和一堆文本,这是我们的
数据
集
。问题是当我们运行时,会弹出一条冻结消息,所有已经运行的旧方法都会重新开始运行。它说,这是由于多
处理
开始之前,另一个完成。import LdaModel os.environ['
MALLET
_HOME'] = '****/
ma
浏览 8
提问于2022-06-17
得票数 0
回答已采纳
2
回答
SSIS事务-
大型
记录
集
ssis
、
transactions
、
etl
我想知道SSIS如何
处理
大
数据
集
的事务。我有一个大约150,000行的“
大型
”
数据
集
,其中的每一行都需要根据业务规则进行验证,作为从临时
数据
库到实时
数据
库的ETL的一部分。如果任何记录不符合其业务规则,则任何记录都不应在实时
数据
库中结束(即回滚事务)。 我的问题是,SSIS是如何
处理
大型
事务的--或者它可以吗?它
是否
会
处理
录入149,999条记录
浏览 3
提问于2009-05-28
得票数 0
回答已采纳
3
回答
关于潜在Dirichlet分配(
MALLET
)的问题
nlp
、
mallet
老实说,我不熟悉LDA,但我需要在我的一个项目中使用
MALLET
的主题建模。我的问题是:给定特定时间戳内的一组文档作为主题模型的训练
数据
,使用模型(使用推理器)来跟踪主题趋势(对于文档+或-训练
数据
的时间戳)是合适的吗?我的意思是,如果在模型构建阶段,我们只提供了我需要分析的
数据
集
的一个子集,那么
MALLET
提供的主题分布
是否
适合跟踪主题随时间的受欢迎程度。 谢谢。
浏览 1
提问于2010-11-10
得票数 2
回答已采纳
1
回答
为机器学习
处理
大
数据
集
的设计模式
python
、
design-patterns
我目前正在尝试从网站上抓取
数据
,并从中构建一个
大型
(可能
会
随着时间增长)的
数据
集
。我想知道在
处理
、保存和加载
大型
数据
集
时,
是否
有什么好的做法可以采用。更具体地说,当我想要保存的
数据
集
太大而无法存储在RAM中时,我应该怎么做,然后一次性写入磁盘;并且一次写入一个
数据
点太低了?有没有比一次写一次中等大小的文件更聪明的方法呢? 谢谢您抽时间见我!
浏览 15
提问于2017-08-17
得票数 2
回答已采纳
2
回答
在MySQL或Postgres中使用混合表字符
集
时,我们
是否
会出现性能问题?
mysql
、
database
、
postgresql
、
character-encoding
、
collate
我正在
处理
一个有不同字符
集
的表的
数据
库。因为它是一个
大型
数据
库,我想知道它
是否
会
导致性能问题。是的,通常DB所做的值比较是连接和比较整数,但是除了某些字符
集
占用更大的空间外,我们还有其他性能问题吗?
浏览 8
提问于2021-04-19
得票数 1
回答已采纳
2
回答
标签预测的特征空间约简
python
、
machine-learning
、
scikit-learn
、
feature-extraction
、
tf-idf
完成的工作 如何使用这些
处理
过的
数据
来缩小功能
集
的大小?我读过关于SVD和PCA的文章,但是这些例子总是谈到一组文档和一个词汇表。我不知道我的套装里的标签能从哪里来。此外,在存储
数据
的方式(redis +稀疏矩阵)中,很难使用已经实现的模块(sklearn、nltk等)来完成这项任务。一旦功能
集
减少,我计
浏览 3
提问于2015-01-31
得票数 6
0
回答
Mallet
: OutOfMemoryError: Java堆空间
java
、
machine-learning
、
out-of-memory
、
translation
、
mallet
当在
Mallet
中训练
数据
时,由于OutOfMemoryError而
停止
处理
。bin/
mallet
中的属性MEMORY已设置为3 3GB。训练文件output.
mallet
的大小只有31MB。我已经尝试减少训练
数据
的大小。但它仍然抛出相同的错误: a161115@a161115-Inspiron-3250:~/dev/test_models/
Mallet
$ bin/
mallet
tra
浏览 16
提问于2017-06-22
得票数 2
2
回答
jQuery.get -回复会不会太大?
javascript
、
jquery
key=abc", function(data){eval(data);});通过这种方法可以获得的
数据
有最大值吗?如果是这样,您如何获得大量回复?
浏览 0
提问于2011-10-01
得票数 0
回答已采纳
1
回答
RocksDB:支持核心外?相关的表现?
rocksdb
我正在开始一个新的软件,应该能够
处理
大型
数据
集
,即一些兆字节的
数据
。 我已经看到Rocksdb允许存储
大型
数据
集
,但我不确定它
是否
是一个核心特性?我的意思是,如果
数据
集
比计算机内存大,它会
处理
它吗?此外,在没有交换的情况下,
是否
有关于使用这种内存
数据
存储的性能影响的研究?谢谢
浏览 1
提问于2017-05-15
得票数 0
回答已采纳
1
回答
如何将mpld3和square/crossfilter的优点合并为一个自定义插件?
d3.js
、
matplotlib
、
mpld3
因此,我在mpld3中查找我拥有的一些可以使用加载的较大
数据
集
(磁盘上约700MB)。
浏览 0
提问于2014-09-11
得票数 2
1
回答
将
大型
数据
从迭代器中提取到DataFrame中
python
、
sql
、
pandas
、
dataframe
、
iterator
我正在将一个
大型
数据
集
(38M记录)从Teradata提取到Python DataFrame中。ef.append(a) break:大约10分钟后,我的内核将
停止
运行,从而终止
处理
。
是否
有更快的方法从迭代器中提取
数据
并将其导出到DataFrame? 谢谢
浏览 1
提问于2022-03-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
有没有修复Windows系统文件的第三方工具?
Numpy第5练:不影响原数组,如何替换数组中符合条件的元素?
深度学习中的正则化策略综述
如何使用内存微调大型语言模型 (LLM)
不知道如何提升深度学习性能?我们为你整理了这份速查清单
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券