腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
TfIdfVectorizer
查找
重要
的
单词
?
、
、
、
、
代表文档
的
重要
单词
是'Bob‘和'Sara’。但
使用
max_features时,输出往往会显示频繁出现
的
单词
。当语料库很大时,情况会变得更糟。我们怎么能只得到
重要
的
单词
呢?from sklearn.feature_extraction.text import
TfidfVectorizer
'hi,',
浏览 104
提问于2021-02-08
得票数 1
回答已采纳
1
回答
计数向量器会比tf-以色列国防军表现得更好(稍微)吗?
、
、
对于二进制分类
的
任务,我有一个小
的
数据集,共有1000个文本(~590个正
的
和401个负
的
实例)。有了800套训练和200套测试,我得到了一个(略)更准确
的
计数矢量比tf-以色列国防军。此外,计数向量器选择相关
的
“
单词
”训练模型,而tf-以色列国防军没有挑选出这些相关
的
单词
。即使是计数向量器
的
混淆矩阵也显示出比tf-国防军略好
的
数字.confusion matrix [ 6
浏览 0
提问于2019-04-10
得票数 0
回答已采纳
1
回答
TF-IDF是否合并了单个学期
的
分数?
、
、
我正在阅读TF-IDF,这样我就可以从我
的
语料库中过滤出常见
的
单词
。在我看来,对于每个
单词
、文档对,您都会得到TF-IDF分数。 你关注
的
分数是多少?您是否将所有文档
的
分数合并为一个
单词
?
浏览 6
提问于2019-03-08
得票数 0
2
回答
如何
用tf-国防军对新文件进行分类?
、
、
、
、
如果我
使用
来自
TfidfVectorizer
的
sklearn生成特征向量,如下所示:然后我将
如何
生成特征向量来对新文档进行分类?因为你不能计算单个文档
的
tf-国防军。
使用
以下方法提取特征名是否是正确
的
方法: feature_names =
TfidfVectorizer</e
浏览 5
提问于2016-10-18
得票数 9
回答已采纳
1
回答
如何
在文本分类中显示随机森林上
的
特征
重要
性?
、
、
、
、
在我们
使用
TfidfVectorizer
或CountVectorizer转换语料库并将其转换为RandomForest之后,我们
如何
通过相应
的
单词
和索引重新获得基尼
重要
性?vectorizer =
TfidfVectorizer
()X_test_vectorizer
浏览 52
提问于2021-03-31
得票数 0
1
回答
基于
TfidfVectorizer
的
n-图矢量化
、
我
使用
的
TfidfVectorizer
参数如下:我正在传达以下文字:“红色
的
太阳,粉红色
的
糖果。绿色
的
花。”这是get_feature_names():
的
输出 ['candy', 'candy green', 'coffee'
浏览 3
提问于2018-08-31
得票数 3
回答已采纳
1
回答
在每一份文件/总数中,哪10个词
的
TF-以色列国防军值最高?
、
、
、
、
我正试图得到每个文档最高
的
TF-以色列国防军分数为10
的
单词
。 from sklearn.feature_extraction.text import
TfidfVectorizer
vectorizer =
TfidfVectorizer</em
浏览 1
提问于2020-11-08
得票数 2
回答已采纳
2
回答
如何
从sklearn
TfidfVectorizer
中删除所有非英语标记?
、
TfidfVectorizer
(analyzer='word', ngram_range=ngram_range, min_df=0, stop_words=lang) 我正在尝试向量化我
的
语料库,但我
的
语料库同时包含英语和阿拉伯语
单词
我想删除阿拉伯语
单词
。
浏览 19
提问于2019-07-31
得票数 0
回答已采纳
2
回答
SKLearn TF-以国防军下降号码?
、
我在做文字分析,我想忽略那些仅仅是数字
的
“
单词
”。例如:从课文“这是斯巴达千!”只应
使用
“this”、“is”和“Sparta”这几个词。有办法这样做吗?多么?
浏览 3
提问于2017-08-31
得票数 4
回答已采纳
1
回答
是否有特定
的
指标或方法来删除TF IDF词汇表
的
尾部?
、
、
、
、
我已经从gensim或
tfidfvectorizer
获得了一个TF IDF词汇表。是否有特定
的
指标或方法来删除TF IDF词汇表
的
尾部?我指的是Zipf图中
的
尾部。
如何
将其可视化?我想看看当我删除词汇表中
的
单词
数量时,准确性是
如何
变化
的
。例如,我
的
词汇表有175000
的
单词
。
浏览 1
提问于2019-11-27
得票数 0
1
回答
是否有一种方法可以根据所提取
的
命名实体在文档中
的
重要
性/发生情况对其进行排序?
、
寻找一种方法,根据其在上下文中
的
重要
性/相关性,对任何文档中
的
数十个和数百个指定实体进行排序。提前感谢!
浏览 0
提问于2019-08-14
得票数 5
1
回答
如何
使用
卡方检验从文档中计算关键字?
、
、
、
、
should schools have uniform","schools discipline","legalize marriage","marriage culture"]但是,我没有标签,当我运行上面的代码时,我得到了:有没有办法
使
浏览 22
提问于2018-07-28
得票数 3
回答已采纳
1
回答
如何
从一列数据帧中计算tfidf分数并提取具有最小分数阈值
的
单词
、
我取了一列数据集,每一行都有文本形式
的
描述。我正在尝试
查找
tf-idf大于某个值n
的
单词
,但代码给出了一个分数矩阵,
如何
对分数进行排序和过滤,并查看相应
的
单词
。tempdataFrame['description'].apply(lambda from sklearn.feature_extraction.text import
TfidfVectorizer
tfidf =
TfidfV
浏览 16
提问于2019-04-06
得票数 3
回答已采纳
1
回答
Python是指在每个集群中打印
单词
的
绝对频率。
、
、
、
、
你好,有办法打印出集群中每个
单词
的
绝对频率吗?我
的
代码是这样
的
:X = vectorizer.fit_transform(list) for ind in order_centroids[i, :5]: print 我
的
浏览 6
提问于2021-12-10
得票数 0
回答已采纳
1
回答
学习:不要
使用
一些
单词
作为一个词
的
特征,而是在搭配中
使用
。
、
、
我正在
使用
Python和scikit进行文本分类--学习。经过分类和测试,我
的
算法在测试集和简历集,我想提高准确性。我看到了信息最丰富
的
特性(由于问题)。我看到,在集信息最多
的
特性中,我有<e
浏览 3
提问于2014-07-22
得票数 1
回答已采纳
1
回答
将tfidf矩阵打印到文件中
、
我想将此tfidf过程
的
结果打印为文本文件中
的
(word,2.333)。目前,它先打印所有
单词
,然后打印分数。我该怎么做呢?我还希望按照IDF值对文件进行排序,以获得最
重要
的
单词
。sklearn.feature_extraction.text import TfidfTransformer results.e
浏览 0
提问于2015-12-11
得票数 3
1
回答
如何
将c++与
单词
边界进行匹配
、
我希望在Python3中将
单词
"c++“与
单词
边界相匹配,但我猜测\b也会在加号上触发。为了清楚起见,我简化为以下测试用例:我希望我可以保留
单词
边界,但以某种方式更改它
的
设置。这样做
的
原因是我想把正则表达式放在
TfidfVectorizer
的
token_pattern中,在这个
TfidfVectorizer
中,我无法控制它们
如何
使用
它。
浏览 0
提问于2018-05-19
得票数 3
1
回答
如何
了解NLP模型中与特定类相关
的
单词
?
、
、
、
、
我
使用
Logistic回归算法和TF-下手向量器训练了一个“消费者投诉分类”
的
NLP模型。我想知道我
的
模型与某一特定类相关
的
单词
。我在找这样
的
东西- Class 1 =“帮助我
的
模型识别输入文本属于这个类
的
单词
列表”
浏览 5
提问于2020-06-21
得票数 2
回答已采纳
2
回答
在
TfidfVectorizer
中删除法语和英语中
的
词组
、
、
、
我试图删除
TfidfVectorizer
中法语和英语中
的
断句。到目前为止,我只从英语中删除了断句。当我尝试为stop_words输入法语语言时,我会收到一条错误消息,上面说它不是内置
的
。我正在
使用
Python对这700行进行集群项目。然而,我
的
集群出现了一个问题:我得到了满是法语停止词
的
集群,这正在破坏我
的
集群
的
效率。我
的
问题如下: 有没有任何方法来添加法语停止词或手动更新内置
的
英语停止词列表,以便我可以消除这些不必
浏览 0
提问于2019-08-05
得票数 5
回答已采纳
1
回答
只计算单字表
的
tf-以色列国防军权重
、
、
我想从文件中得到特定
单词
列表
的
tf-国防军权重。例如,我有如下感兴趣
的
词。但我只想从
使用
scikit-learn
的
文档组中获得上述
单词
的
权重。任何想法都会对我有很大帮助。
浏览 0
提问于2019-02-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用 Scikit Learn 为机器学习准备文本数据
6,特征的提取
外国网友如何使用机器学习将邮件分类?其实很简单
Python机器学习sklearn模块-特征提取
Kaggle比赛教你最快速度入门文本分类
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券