腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
减少
n
元
语法
特征
?
、
、
、
、
当我在上面运行
n
-gram提取器时,我得到了17万个唯一的unigram + bigram,这是如此之多,以至于机器学习算法需要太长的时间来处理它。 我应该
如何
减少
这些提取的
特征
的数量?
浏览 6
提问于2017-01-31
得票数 2
回答已采纳
2
回答
结构MNIST,完全连接的第1层,输出大小
、
、
、
我不理解其中的一部分(): 制作一个
特征
地图的热点表示。因此,我们将有64 *7*7= 3136个输入
特征
,这再次由一个3136个神经
元
处理,将其
减少
到1024个
特征
。我的意思是,使用3136个神经
元
将3136个输入
减少
到1024个
特征
的过程是什么?
浏览 1
提问于2018-04-24
得票数 0
回答已采纳
1
回答
如何
在countVectorizer中使用二
元
+三
元
+词标词汇?
、
、
、
如何
在countVectorizer中调整这些参数? 单词标记 这些是单词标记的例子,但我没有,因为我的是阿拉伯语。所以我翻译了它们。他是
如何
在词汇中使用ngram的呢?它们不都是相互排斥的吗?
浏览 23
提问于2019-05-11
得票数 0
回答已采纳
1
回答
什么是
元
数据和元功能?
、
、
、
、
我想知道什么是
元
数据,什么是元功能?另外,我想要的是元功能的定义和意义?
浏览 0
提问于2020-12-08
得票数 1
2
回答
二
元
组和一
元
组文本
特征
提取有什么不同
、
我在网上搜索了二
元
词和一
元
词的文本
特征
提取,但仍然没有找到有用的信息,有人能告诉我它们之间的区别吗?例如,如果我有一个文本“我有一只可爱的狗”,如果我使用二
元
语法
方法进行
特征
提取和一
元
语法
提取,会发生什么?
浏览 1
提问于2017-04-18
得票数 13
回答已采纳
1
回答
如何
在arff文件中表示
n
元
语法
特征
?
、
、
、
、
问题是:我首先在java中使用Weka API来提取
n
元
语法
特征
,我可以举例说明之一是问题从这里开始: arff文件的头文件应该是这样的:@attribute
浏览 5
提问于2017-01-26
得票数 0
回答已采纳
1
回答
绘制科霍宁地图-理解可视化
、
SOMs的Kohonen算法说明了
如何
为每个训练示例调整最佳响应神经
元
及其邻居的输入权重。亲切的问候!
浏览 1
提问于2014-11-13
得票数 2
回答已采纳
1
回答
具有朴素贝叶斯分类器的
N
-gram
、
、
我是python的新手,需要帮助!我正在练习python NLTK文本分类。以下是我在上练习的代码示例from nltk import bigramsfrom nltk import NaiveBayesClassifier for line i
浏览 0
提问于2012-12-22
得票数 10
回答已采纳
1
回答
如何
使用Weka尝试不同的功能集
、
我有一个分类问题,为了解决这个问题,我计划使用不同的
特征
集,比如一
元
语法
和二
元
语法
,也许以后会更多。我想用这些
特征
集的不同组合进行实验。做这件事最好的方法是什么?
浏览 3
提问于2013-03-12
得票数 1
1
回答
如何
告诉scikit-learn向量器使用特定的功能?
、
、
我有一组手工提取的
特征
。并不是所有的单词都是单独的单词;它们中的一些是二
元
语法
,另一些是三
元
语法
。我想要对我的文本进行建模--这些文本是以原始文本的形式明确地基于这些
特征
提供的。我
如何
在sklearn中做到这一点呢?到目前为止,我就是这样定义我的Vectorizer的。
浏览 4
提问于2014-02-17
得票数 0
3
回答
推理时的单幅图像
特征
约简
、
、
、
在训练时,我要
减少
特征
向量维数。我使用PCA来
减少
维数。pp = PCA(
n
_components=400).fit(features)主成分分析需要m x
n
数据集来确定方差。但在推理时,我只有一幅图像和相应的一维
特征
向量。我想知道
如何
在推理时
减少
特征
向量以匹配训练维数。
浏览 5
提问于2020-07-30
得票数 1
回答已采纳
2
回答
词袋(BOW) vs
N
-gram (sklearn CountVectorizer) -文本文档分类
、
、
、
、
据我所知,在词袋方法中,
特征
是一组单词及其在文档中的出现频率。另一方面,
N
-gram,例如unigram,做了完全相同的事情,但它没有考虑一个单词的出现频率。我想使用sklearn和CountVectorizer来实现BOW和
n
-gram方法。对于BOW,我的代码如下所示:是否应该将'binary‘参数设置为True来执行
n
元
语法
特征
选择CountV
浏览 0
提问于2018-08-01
得票数 5
1
回答
lucene对常见NLP任务的支持
、
、
、
、
我目前的实现使用openNLP来执行常见的自然语言处理任务,例如标记化,构建
n
元
语法
特征
。我很想知道Lucene是否可以支持这些功能?
浏览 0
提问于2012-12-15
得票数 0
1
回答
如何
在Spark中将
n
-gram组合成一个词汇?
、
、
、
、
想知道是否有内置的Spark功能将1-,2-,
n
-gram
特征
组合到单个词汇表中。在NGram中设置
n
=2,然后调用CountVectorizer会得到一个只包含2
元
语法
的字典。
浏览 12
提问于2016-08-09
得票数 9
回答已采纳
1
回答
在python中使用二
元
语法
训练SVM分类器
、
、
、
我能够成功地使用unigram作为
特征
进行分类。我使用的是SciKit的libSVM实现,它可以使用One-Vs-All方法执行多类分类。为了生成
特征
向量,我使用了一张地图。在
特征
向量中,如果没有停止tweet,则将map(单词)的值附加到标签0,否则将其设置为1。在这段代码的同一行中,我想知道我是否可以使用二
元
语法
作为
特征
,我
如何
通过生成最佳二
元
语法
和创建
特征
向量来实现?,
n
=10): bigr
浏览 1
提问于2015-05-03
得票数 0
1
回答
推理时的单图像
特征
约简: SVM
、
、
、
、
在训练时,我要
减少
特征
向量维数。我使用PCA来
减少
维数。pp = PCA(
n
_components=400).fit(features)主成分分析需要m x
n
数据集来确定方差。但在推理时,我只有一幅图像和相应的一维
特征
向量。我想知道
如何
在推理时
减少
特征
向量以匹配训练维数。 或者,如果有人可以提出一些其他的降维技术,可用于单一图像将是非常值得赞赏的。
浏览 0
提问于2020-07-30
得票数 0
1
回答
在tf-idf中使用三
元
组时,我是否应该包括单元组和双元组?
、
、
、
当我使用二
元
组时,我将二
元
组的列表附加到单元组,并将其用作我的语料库。对于三
元
模型,我将三
元
模型添加到unigram中,但忽略了二
元
模型。这是正确的方法吗,或者如果我想合并三
元
模型,那么包含二
元
模型会更好吗?相反,这个过程应该是:unigram -> unigram+二
元
语法
-> unigram+二
元
语法
+三
元
语法
?
浏览 1
提问于2018-09-18
得票数 0
1
回答
在同一个分类器中可以使用多个ngram吗?
、
、
、
我试过这样做,至少对于朴素贝叶斯来说,它给了我比只有二
元
模型更高的准确率(尽管比一
元
模型低),但我不确定这是否是一种合法的做法。我担心的一个问题是,如果这是一个适用的术语,那么存在多重共线性的可能性,即“运气”和“好运”都在最具信息量的
特征
列表的顶部。
浏览 0
提问于2016-11-30
得票数 0
2
回答
Xtext基数
元
模型
、
、
我目前正在做一个项目,我正在用Xtext
语法
创建一个
特征
模型。我的任务是将
语法
语法
转换为CSV文件,可导入eclipse插件pure::variants。
特征
模型基本上是
特征
树。为了构建树,我使用了生成的xtext
语法
语法
的ecore
元
模型。这个文件( .ecore )基本上是一个带有
语法
对象的XML文件。这是一致的,简单,很容易创建出树。这些类型的
特征
对应于基数运算符。这些操作符是用xtext<
浏览 13
提问于2019-03-06
得票数 0
3
回答
在Java中保存大量数据的最佳实践
、
、
、
、
我正在用Java编写一个小系统,在这个系统中,我从文本文件中提取
n
元
语法
特征
,稍后需要执行
特征
选择过程,以便选择最多的鉴别器
特征
。单个文件的
特征
提取过程返回一个Map,其中包含每个唯一
特征
及其在文件中的出现情况。我将所有文件的Map (Map)合并为一个Map,其中包含从所有文件中提取的所有唯一
特征
的文档频率(DF)。目前,
特征
提取过程运行良好,我想执行
特征
选择,其中我需要实现信息增益或增益率。
浏览 1
提问于2015-01-14
得票数 11
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券