首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Tf-下手向量器分析从线而不是文字中的向量。

Tf-下手向量器分析从线而不是文字中的向量。
EN

Stack Overflow用户
提问于 2016-07-27 13:58:16
回答 1查看 827关注 0票数 2

我试图分析一个由行给出的文本,我希望使用sckit-learn包的在python中将这些行向量化。问题是,向量化可以通过单词或n-克来完成,但我希望对行进行矢量化,而且我已经排除了一项工作,就是将每一行向量化为一个单词(因为这样就不会考虑单词及其含义)。

看一看文档,我没有找到如何做到这一点,所以有这样的选择吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-27 14:11:05

你似乎误解了TF-国防军的矢量化行动。对于每一个单词(或N-克),它都会赋予这个词一个权重,它既是术语(TF)的频率的函数,也是它与文档中其他术语的反比频率(国防军)的函数。用它表示单词(例如知道“披萨”出现的频率)或N克(例如,知道“比萨饼”出现的频率)是有意义的。“芝士比萨饼”2克)

现在,如果你在网上做的话,会发生什么?除非你碰巧有一个语料库,其中的行被精确地重复(例如。“我需要Python中的帮助”),您的TF-国防军转换将是垃圾,因为每个句子都会出现在文档中一次。如果你的句子确实总是和标点符号相似,那么在所有意图和目的上,它们都不是你语料库中的句子,而是单词。这就是为什么没有办法对工作队-以色列国防军的句子:它没有任何实际意义或理论意义。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38615088

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档