如何在arff文件中表示n元语法特征？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

问题是:我首先在java中使用Weka API来提取n元语法特征，我可以举例说明之一是问题从这里开始: arff文件的头文件应该是这样的：@attribute{0,1} not good 但在创建arff文件后，当我想要处理该文件时，出现了一个异常，这意味着arff文件的结构不正确。

浏览 5提问于2017-01-26得票数 0

回答已采纳

2回答

如何在.arff文件格式中表示依赖三元组？

、、、

我想使用从这里返回的依赖三元组作为分类的特征，但我不知道如何在ARFF文件中正确地表示它们。基本上，我被难住了；对于每个实例，都有任意数量的依赖三元组，所以我不能在属性中显式地定义它们，例如：@attribute depTriple@attribute depTriple_n string 有没有什么特别的方法来解决这个问题呢？我花了大半天的时间寻找，但还没有找到任何东西

浏览 3提问于2015-03-17得票数 1

1回答

如何在python中处理主题建模中不同顺序相同单词的二元语法？例如。‘租期延长’和‘延长租期’

、、、、

你好Stackoverflow社区，我正在向你们大家请教如何在python的主题建模中以不同的顺序处理同一单词的二元语法。我有一个主题模型，其中表示相同意思的两个二元模型被视为不同的特征，因为它们的顺序不同。我需要一种方法，必须将这两个二元语法视为同义词。欢迎您的意见和建议。例如。‘租约扩展’和‘扩展租约’我想把它们当作词矩阵中的同一个词任何类型的建议和想法都非常受欢迎。先谢谢你，尼查尔

浏览 20提问于2019-03-13得票数 0

1回答

卷积神经网络中滤波器的差异

当创建卷积神经网络(CNN)时(例如，如中所描述的)，输入层与一个或多个滤波器连接，每个滤波器表示一个特征映射。在这里，滤波器层中的每个神经元与输入层中的几个神经元相连。在最简单的情况下，我的n个滤波器都有相同的维数，并且使用相同的步幅。如何确保过滤器学习不同的特征，尽管它们是用相同的补丁进行培训的？

浏览 3提问于2016-05-26得票数 2

2回答

例如，希望获取两个.arff文件，一个用于训练，另一个用于测试，并获得测试数据中缺失标签的预测输出。-T "test_file_with_missing_values.arff" -F weka.filters.unsupervised.attribute.ReplaceMissingValues我也不打算使用MLP，因为当我从文本数据中获得几千个特征时，NN往往太慢。不过，我知道如何将其更改为另一个分类器(如NB或li

浏览 1提问于2013-03-15得票数 16

回答已采纳

3回答

特征选择文本挖掘

、、、、

在进行文本聚类之前，数据集必须经过几个步骤，如从停止词中清除数据集，从文本中提取词干词，然后得到特征选择。阅读关于特征选择的文章，我可以应用几种方法来进行特征选择，如信息增益、基尼指数和互信息.我想知道这些方法的性质，以及如何在编码部分实现它们，是否有任何库可以用来执行这些任务。

浏览 2提问于2013-12-23得票数 0

3回答

在Java中保存大量数据的最佳实践

、、、、

我正在用Java编写一个小系统，在这个系统中，我从文本文件中提取n元语法特征，稍后需要执行特征选择过程，以便选择最多的鉴别器特征。单个文件的特征提取过程返回一个Map，其中包含每个唯一特征及其在文件中的出现情况。我将所有文件的Map (Map)合并为一个Map，其中包含从所有文件中提取的所有唯一特征的文档频率(

浏览 1提问于2015-01-14得票数 11

1回答

在不使用数据帧的情况下将高维数据读入R

、、、

在R中有2个可通过和包使用的ARFF阅读器。这两个arff阅读器的问题是它们将arff数据读入到数据帧中(因此您从稀疏数据到非稀疏存储方式)，并且由于我的数据集相当大，如果这不是一种实用的方式。事实上，当RWeka试图读取arff文件时，我开始耗尽内存。(1)在R下存储和处理我的数据的合适方式是什么？请注意，我正在读取标记的文本数据，因为我想进行文本分类。因此，任何稀疏表示都应该(理想情况下)可供分类器使用。 (2)更重要的是，我如何读取这种格式的<em

浏览 1提问于2012-01-02得票数 1

1回答

在scikit-learn - csv文件中生成图像特征数据集

、、、、

我从一张图像中提取了两个边缘特征(Hog特征和sobel算子)。不幸的是，我在这里只看到了一个java教程，...，在5点讨论如何生成训练矩阵(平均矩阵和协方差矩阵)？

浏览 1提问于2012-12-11得票数 0

回答已采纳

1回答

用于使用svm-light进行电子邮件分类的Python文件格式

、、、、

我正在处理电子邮件主题，所以我有20封电子邮件要分类，还有一个20行的文件-一行有一个电子邮件主题。我一直在处理它，但我无法弄清楚这些功能指的是什么以及svmlight的输入文件的格式。或者我如何更改文件才能被读取？我所拥有的文件的一个想法(前5个电子邮件功能)：2 280 0.1231656726132 515 0.157569797284 2 588

浏览 3提问于2013-12-27得票数 0

2回答

如何让Weka分类器使用更少的内存和CPU时间？

、

我有一个包含250,000个实例的培训集，这对于Weka分类器来说太大了(尽管数据加载到Weka UI中很好，但是任何运行非平凡分类器的尝试都会导致内存不足，即使机器的整个8GB RAM专用于JVM堆)有没有一种方法可以轻松地在Weka命令行或KnowledgeFlow上做到这一点，而不必处理ARFF文件？(我更喜欢保留一个大型ARFF文件，这样就可以在Weka中评估不同的拆分策略) 我研究了打包和交叉验证，但我不认为它们适合我的问题，因为我不希望数据随机分开，而是根据位置的相似性保持在

浏览 1提问于2013-11-28得票数 1

回答已采纳

2回答

N-gram:解释+2个应用

、、、

我想用n元语法实现一些应用程序(最好是用PHP)。句子：“我住在纽约。”词级二元组(2代表n)："# i“，"I live"，"live

浏览 35提问于2009-06-23得票数 18

回答已采纳

2回答

用于提取ngram的TF-IDF向量器

、、、

如何使用scikit learn库中的TF-IDF vectorizer来提取推文的unigrams和bigrams？我想用输出训练一个分类器。

浏览 30提问于2020-10-28得票数 5

回答已采纳

1回答

为什么有关键词和标准的刻板印象？

有时我使用关键字(如<<use>> )，有时使用标准原型(如<<Create>> )。但我想知道为什么UML中存在这两个概念。我觉得关键词可以整合到个人资料中。

浏览 1提问于2017-11-17得票数 2

回答已采纳

1回答

weka中的字符串数组属性

、、、、

我需要一个weka训练文件(arff)来具有一个名称(String)和一个与该名称相关联的String数组，以便当我在任何文本上运行该名称时，分类器将名称与这些字符串关联起来。对于此任务，如何在weka中创建一个属性，即字符串数组？或者有没有其他方法可以做到这一点？例如:狄皮卡·沙阿，贪婪的读者，有趣，漂亮。编辑:我需要使用句子中的单词和短语，把句子归类为一个名字。因此，我给出了一组与名称相关的字符串，以及它们关联的名称。量词应该从句子中找到类。或者，在我从句子中提取<e

浏览 1提问于2016-09-08得票数 0

回答已采纳

1回答