腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
解决
tf-idf
词汇表
错误
?
、
、
、
我在我的训练数据上训练了一个来自sklearn的TFIDF,当我在新的数据上应用
词汇表
时,它会给我一个关键
错误
,因为它没有在上面学习。我该怎么
解决
它呢? 这是我的代码。
浏览 17
提问于2020-10-09
得票数 0
回答已采纳
2
回答
Smalltalk和
tf-idf
算法
、
、
、
谁能在Smalltalk中展示一个用于自然语言处理的
tf-idf
算法的简单实现或用法示例?我在一个名为的包中找到了一个实现,但它似乎太复杂了,无法满足我的需求。我注意到中还有另一个
tf-idf
,但它似乎与软件系统
词汇表
的分析有关,我没有找到
如何
使用它的示例。
浏览 3
提问于2012-07-08
得票数 3
回答已采纳
2
回答
有必要将
TF-IDF
应用于gensim LDA模型中的新文档吗?
我在上关注“英语维基百科”的基因教程doc_lda = lda[doc_bow] LDA是否只需要词袋向量?
浏览 89
提问于2017-06-27
得票数 10
回答已采纳
1
回答
使用Sklearn的TfidfVectorizer变换
、
、
、
我正在尝试使用Sklearn的TfidfVectorizer对象获取单个文档的
tf-idf
向量。我根据一些训练文档创建了一个
词汇表
,并使用fit_transform训练TfidfVectorizer。然后,我希望找到任何给定测试文档的
tf-idf
向量。doc = "some string I want to get
tf-idf
vector for"问题是这会返回一个n行的矩阵,其中我希望它只返回一个代表整个字符串的
tf-id
浏览 1
提问于2013-11-22
得票数 37
回答已采纳
1
回答
如何
模拟tf-国防军火花
、
、
我正在尝试重写编写的代码(它是用Python编写的),但现在正在发火。tfidf = TfidfVectorizer() 我读过火花文档,是否有必要在PySpark中使用Tokenizer,HashingTF,然后才能模拟TF-下手?tokenizer = Tokenizer(inputCol
浏览 10
提问于2022-08-29
得票数 1
回答已采纳
2
回答
如何
在weka中将测试文档转换为训练词汇维度的向量?
、
使用Weka的StringtoVector功能,我可以很容易地将训练样本转换成带有
tf-idf
的向量进行术语加权,并提取V维的
词汇表
,我尝试了很多方法,但没有想出一种方法来为测试文档创建V维(训练样本中的词汇)的文档向量,但我知道这是可能的,就像我们分别提供训练和测试样本的所有分类器一样,这是在内部完成的,因为所有人都需要测试文档的文档向量,这是训练
词汇表
维度的,但是我
如何
在java代码中做到这一点,以便我可以获得测试样本
tf-idf
向量,它与词汇和所有训练样本的维度相同。
浏览 0
提问于2013-12-17
得票数 1
3
回答
scikit学习TfidfVectorizer的意义?
、
、
、
、
我读到了关于scikit learn的TfidfVectorizer 的文章,我不明白这个方法的输出是什么,例如:new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)print ne
浏览 0
提问于2014-09-18
得票数 25
回答已采纳
1
回答
当我尝试使用python networkx对文本文档进行摘要时,出现
错误
‘增强迭代在100次迭代内收敛失败’)
、
、
代码"scores = nx.pagerank(sentence_similarity_graph)“处显示的
错误
def read_article(file_name): file = open
浏览 127
提问于2020-07-22
得票数 4
1
回答
如何
在k-means聚类中使用tfidf值
、
、
、
、
我在使用sckit-learn库的
TF-IDF
中使用K-means聚类。我知道K-means使用距离来创建聚类,距离用(x轴值,y轴值)表示,但
tf-idf
是一个单独的数值。我的问题是,这个
tf-idf
值是
如何
通过K均值聚类转换为(x,y)值的。
浏览 20
提问于2020-02-19
得票数 2
回答已采纳
1
回答
需要创建IDF值的字典,将单词与其IDF值相关联
我了解
如何
使用向量器获取IDF值和
词汇表
。对于词汇,单词的频率是值,单词是字典的关键字,但是,我希望值是idf值。 for string in text_array: for word in total_dict.keys(): # calculate
浏览 0
提问于2019-07-27
得票数 0
1
回答
使用python中的余弦相似度返回与查询文档相比最相似的文档
、
、
、
、
我有一组文件和一个查询doc.My,目的是通过与查询文档进行比较来返回最相似的文档,对于每个document.To使用余弦相似度,首先我要将文档字符串映射到vectors.Also,我已经创建了一个
tf-idf
vector1, vector2) / (math.sqrt(numpy.dot(vector1, vector1)) * math.sqrt(numpy.dot(vector2, vector2)))def tfidf(self, term, key): return (self.tf(term,key) *
浏览 1
提问于2012-02-28
得票数 4
2
回答
scikit了解SelectPercentile TFIDF数据特征缩减
、
、
、
我使用scikit-learn中的各种机制来创建由文本特征组成的训练数据集和测试集的
tf-idf
表示。这两个数据集都经过预处理,以使用相同的
词汇表
,因此特征和特征的数量是相同的。我想知道,如果我在转换后使用SelectPercentile来减少训练集中的特征数量,
如何
识别测试集中的相同特征以用于预测?
浏览 0
提问于2015-04-01
得票数 2
1
回答
SVC文本分类- TypeError:不可散列类型:'csr_matrix‘
、
、
、
、
然而,当我尝试做一次预测时,我得到了
错误
unhashable type: 'csr_matrix'。我不确定为什么会发生这种情况。
浏览 92
提问于2021-11-20
得票数 0
回答已采纳
3
回答
计算大熊猫的
Tf-Idf
分数?
、
、
、
、
': ['This is the first sentence','This is the second sentence', 'This is the third sentence']}) 我想使用
Tf-Idf
浏览 13
提问于2018-08-02
得票数 2
3
回答
用短语构建语料库
、
、
、
、
very good very bad you are great good restaurent nice place to visit doc2 0
tf-idf
0
tf-idf
tf-idf
我知道,
如
浏览 0
提问于2014-06-04
得票数 3
回答已采纳
1
回答
如何
实现
TF-IDF
评分,并对某些术语进行额外加权
、
、
、
、
我目前有一个
tf-idf
评分系统,我正在使用余弦相似度进行搜索。我想添加额外的权重,以考虑给定的术语是否在文档的标题中。然而,我不确定
如何
将标题数据与
tf-idf
分数结合起来。有谁知道
解决
这个问题的好方法吗?
浏览 24
提问于2019-11-25
得票数 0
1
回答
如何
将
TF-IDF
与编辑距离或Jaro-winkler距离相结合
、
、
、
我正在寻找提高
TF-IDF
权重方案在字符串匹配(相似度)中的准确性的方法。主要问题是
TF-IDF
对字符串中的排版
错误
很敏感,并且大多数大型数据集往往都有排版
错误
。我意识到编辑距离的变体(基于字符的相似性度量-levienshtein,affine-gas,Jaro和Jaro-winkler)适用于存在排版
错误
的字符串之间的相似性计算,但不适用于字符串中单词顺序混乱的情况因此,我想使用编辑距离校正功能来提高
TF-IDF
的准确性。 任何关于
如何
应对这一挑战的想法都将受到高度
浏览 2
提问于2013-04-13
得票数 6
1
回答
如何
在单个文档中查找单词相关性?
、
、
、
、
我知道在一组文档中使用
TF-IDF
,但是是否可以使用
TF-IDF
来
解决
这个问题?如果没有,我
如何
在Python中做到这一点?
浏览 1
提问于2019-04-01
得票数 0
2
回答
在给定句子、关键词或主题的情况下提取相关文本
、
、
、
、
是否有任何已知的方法(除了统计分析之外,但不一定排除它作为
解决
方案的一部分)来使用自然语言处理将句子或概念彼此关联。到目前为止,我只与NLTK和Stanford-NLP合作来帮助我的项目,但我对替代的开源
解决
方案持开放态度。 以下面的George Orwell文章()为例。
浏览 3
提问于2013-10-28
得票数 0
1
回答
公司
如何
处理不断变化的自然语言
、
也许这是个
错误
的假设也许有人可以澄清。然而,我的问题是,他们
如何
处理新的
词汇表
被添加?例如,每当一个新的哈希标签成为趋势时,很可能或至少有可能在此之前嵌入的
词汇表
中没有包含确切的字符串。既然嵌入
词汇表
不能在事实发生后改变,那么它们是否有可能每隔几个小时就重新训练一次模型呢?这似乎很难
解决
。
浏览 0
提问于2022-02-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何解决爬虫10060错误
《致命公司》如何解决联机错误的方法
如何解决编程中的代码错误问题
zoom会议错误代码100000403如何解决
如何解决Win32应用程序错误
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券