腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Sklearn
TfidfVectorizer
中
的
功能
是否
有
最小
术语
长度
要求
python
、
python-3.x
、
pandas
、
sklearn-pandas
、
tfidfvectorizer
我
有
一个用来计算Tfidf
的
pandas数据框架: df['sentence'] = ['buy donuts', 'buy donuts', 'buy donuts', 'buy donuts',
sklearn
的
tfidfvectorizer
。然而,我注意到一个奇怪
的
反常现象,即使min_df和max_df被设置为包含所有
术语
,它也没有包括一些
术语
作为
浏览 23
提问于2019-10-19
得票数 1
1
回答
如何减少scikit
中
的
管道足迹-学习?
machine-learning
、
python
、
scikit-learn
我写了一篇关于堆叠溢出
的
文章。由于它是有关科学知识,我希望我能获得一些帮助,从数据科学家在这个论坛。stackoverflow.com/questions/38640815/python-running-out-of-memory 不过,总的来说,我想征求意见,减少记忆使用时,一个人使用科学学习,因为这可能是一个日常
的
问题来处理作为一个数据科学家
浏览 0
提问于2016-07-28
得票数 0
1
回答
检查python
的
tf- in学习成绩。
python
、
scikit-learn
、
tf-idf
我遵循
的
例子,以计算TF-以色列国防军
的
值使用学习。myvocabulary = ['life', 'learning'] corpuseverlasting learning", 2: "The unexamined life is not worth living", 3: "Never
浏览 2
提问于2017-10-06
得票数 1
回答已采纳
2
回答
如何用tf-国防军对新文件进行分类?
python
、
scikit-learn
、
text-mining
、
tf-idf
、
text-analysis
如果我使用来自
TfidfVectorizer
的
sklearn
生成特征向量,如下所示:feature_names =
TfidfVectorizer
.get_feature_names() 然后根据feature_names计算新文档
的
<em
浏览 5
提问于2016-10-18
得票数 9
回答已采纳
1
回答
如何禁用
sklearn
的
默认停止词
功能
python
、
machine-learning
、
scikit-learn
、
nlp
、
tf-idf
我试着得到日本词
的
tf值。我遇到
的
问题是,
TfidfVectorizer
把一些日语字符去掉了,我想把它们保留下来,作为停止词。以下是一个例子:tf =
TfidfVectorizer
(stop_wordswords_list)print (feature_names) 输出是:[
浏览 1
提问于2017-06-05
得票数 4
回答已采纳
2
回答
如何在Scikit学习
中
实现
TfidfVectorizer
的
手工工程特性?
python
、
scikit-learn
、
nlp
我正在使用下面的代码来生成一个tdidf-matrixtfidf_vectorizertfidf_matrix = tfidf_vectorizer.fit_transform(documents) print(tfidf_matrix.shape)返回(567, 209),这意味着
有
567(documents)函数仍然使用209个
术语
的
噪声列表,而不是手动选择
的
67
浏览 7
提问于2017-12-21
得票数 3
回答已采纳
1
回答
用FeatureUnion为scikit学习管道
中
的
单词包增加额外
功能
python
、
machine-learning
、
scikit-learn
我已经挣扎了这么多,但仍然不知道如何使用额外
的
功能
,与FeatureUnion
的
文本
功能
,在科学学习
的
管道。 我
有
一个句子列表和他们
的
标签来训练一个模型和一个句子列表作为测试数据。然后,我尝试添加一个额外
的
功能
(如每个句子
的
长度
)到包字。为此,我编写了一个自定义LengthTransformer,它返回
长度
列表,并具有与我
的
火车列表相同数量
的
元素
浏览 0
提问于2017-01-26
得票数 2
回答已采纳
1
回答
使用scikit学习tfidf向量器,从计数数据帧开始
python
、
nlp
、
scikit-learn
、
tf-idf
我
有
一个pandas数据框架,其中包含一系列文档
的
字数。
是否
可以对其应用
sklearn
.feature_extraction.text.
TfidfVectorizer
以返回
术语
文档矩阵?import pandas as pd b = [1,3,4,6]如何在df
中
获取计数
的
浏览 2
提问于2015-02-14
得票数 5
1
回答
TfidfVectorizer
是否
保持
功能
的
顺序?
scikit-learn
、
tf-idf
我想知道
TfidfVectorizer
在使用scikit learn转换文档时
是否
保持了
功能
的
顺序。下面是我正在做
的
事情:corpus = ['this movie is cool', 'I love this book']X = vec.
浏览 1
提问于2016-01-05
得票数 0
1
回答
内存错误python
中
的
TFIDF余弦相似度
python
、
out-of-memory
、
sparse-matrix
、
cosine-similarity
有
一个包含项目描述
的
大型数据集。它包含项目ID和项目的文本描述。可以为描述
中
术语
的
tf_idf值构建余弦相似度矩阵。from
sklearn
.feature_extraction.text import
TfidfVectorizer
tf =
浏览 10
提问于2018-08-15
得票数 1
回答已采纳
5
回答
滑雪
的
TfidfVectorizer
词频?
python
、
scikit-learn
、
tf-idf
我
有
一个关于
sklearn
的
TfidfVectorizer
的
问题,当它在每个文档
中
执行单词
的
频率时。我看到
的
示例代码是: >>> 'sandwich and I ate a sandwi
浏览 6
提问于2016-03-02
得票数 1
回答已采纳
2
回答
使用TF-国防军与其他
功能
在科学工具包-学习
python
、
scikit-learn
、
pandas
、
tfidf
将文本分析与其他
功能
相结合
的
最佳/正确方法是什么?例如,我
有
一个包含一些文本和其他特性/类别的数据集。scikit学习
的
TF-国防军矢量器将文本数据转换为稀疏矩阵。但是,还有什么方法可以考虑到其他
功能
呢?我
是否
应该消除文本
的
tf-国防军表示,并将
功能
和文本合并成一个DataFrame?或者,我
是否
可以将稀疏矩阵保留为单独
的
列?正确
的
方法是什么?
浏览 0
提问于2017-09-04
得票数 14
回答已采纳
1
回答
如何从滑雪板
中
的
TF*下手值
中
获取字数
python
、
nlp
、
scikit-learn
、
tf-idf
我只想用一组句子
的
tf*以色列国防军矩阵来计算给定句子
中
的
一个单词。我使用来自
sklearn
.feature_extraction.text
的
sklearn
.feature_extraction.text。例子: sentences = ("The sun is shiny i like我知道获得
术语
频率
浏览 0
提问于2015-08-27
得票数 4
回答已采纳
4
回答
如何使用
sklearn
计算文档和查询之间
的
tf-以色列国防军余弦相似度?
python
、
scikit-learn
、
tf-idf
、
cosine-similarity
我
的
目标是输入3个查询,并找出哪一个查询与一组5个文档最相似。到目前为止,我已经计算了完成以下操作
的
文档
的
tf-idf: allDocs.append(nlp.clean_tf_idf_text(document)) v
浏览 0
提问于2019-04-14
得票数 9
回答已采纳
1
回答
更快
的
sklearn
tf-idf向量器
python
、
machine-learning
、
scikit-learn
、
nlp
、
spacy
我试着在一个项目中使用
sklearn
的
TfidfVectorizer
,但Tfidf Vectorizer似乎占用了很多时间…… import spacy nlp = spacy.load('ja_core_news_lg')matrix = vectorize
浏览 14
提问于2021-01-04
得票数 1
1
回答
决策树
的
特征重要性提取(scikit-learn)
python
、
tree
、
scikit-learn
、
decision-tree
、
feature-extraction
我一直试图了解我所建模
的
决策树中使用
的
特性
的
重要性。我感兴趣
的
是发现节点上选择
的
每个特性
的
权重以及
术语
本身。我
的
数据是一堆文件。这是我为决策树编写
的
代码,我修改了scikit
中
的
代码片段--学习那个提取(): from
sklearn
.feature_extraction.text import
TfidfVectorizer
### Feature extract
浏览 1
提问于2015-12-12
得票数 0
2
回答
TfIdfVectorizer
删除包含所有停止词
的
文档
python
、
python-3.x
、
scikit-learn
、
tfidfvectorizer
我正在使用
sklearn
的
TfIdfVectorizer
来向量化我
的
语料库。在我
的
分析
中
,
有
一些文档因为包含所有的句号而被过滤掉。为了减少稀疏性
的
问题,并且因为在分析
中
包含它们是没有意义
的
,我想删除它。 查看
TfIdfVectorizer
文档,没有可以设置
的
参数来执行此操作。然而,这有一个潜在
的
问题,我得到
的
停止词与向量器使用
的
浏览 0
提问于2019-03-07
得票数 2
回答已采纳
1
回答
tf-以色列国防军不同
长度
的
文件
python
、
normalization
、
tf-idf
、
textblob
当文档
长度
非常不同时(例如,文档
长度
从500字到2500字不等),我搜索了关于规范tf等级
的
网页。 我发现
的
唯一
的
规范化讨论是将
术语
频率除以文档
的
长度
,从而导致文档
的
长度
没有任何意义。但是,这种方法对tf
的
规范化来说是非常糟糕
的
方法。如果有的话,这会导致每个文档
的
tf等级
有
很大
的
偏差(除非所有文档都是从几乎相同
的</em
浏览 2
提问于2016-09-26
得票数 10
回答已采纳
2
回答
将特性名称更新为scikit
python
、
machine-learning
、
nlp
、
scikit-learn
我正在试验这段代码import numpy as np vectorizer =
TfidfVectorizer
second train data [u'aims',
浏览 8
提问于2014-08-06
得票数 6
回答已采纳
1
回答
在给定范围内收缩
长度
列表
的
QuickCheck组合子
haskell
、
quickcheck
是否
有
一个QuickCheck函数可以生成一个
长度
在给定范围内
的
列表,类似于使用hedgegog实现
的
功能
,例如: Gen.list (Range.constant 5 13) someGen 我猜人们会写下这样的话: do vectorOf n genA 让这样
的
函数变得多余,但我想知道
是否
有
QuickCheck组合器来缩小列表,其不变量
浏览 14
提问于2019-09-24
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
外国网友如何使用机器学习将邮件分类?其实很简单
Python机器学习sklearn模块-特征提取
6,特征的提取
5个冷门机器学习项目,助你打怪升级!
复旦中文文本分类过程附语料库
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券