腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Python
中
对
Twitter
数据
框
使用
列举
化
和
Tf-
Idf
计算
时
出错
python
、
tf-idf
、
lemmatization
我有一个tweet的
数据
帧,我试图
在
词条
化
的'tweet‘列上
计算
Tf-
Idf
。我对词汇
化
的结果有一个问题,并且
在
尝试
计算
Tf-
Idf
时
得到一个错误。w_tokenizer.tokenize(tweet)] df['tweet_lemmatized'] = df['tweet'].apply(lemmatize_text) 这是一个包含新列‘tweet_lemmat
浏览 54
提问于2020-07-27
得票数 2
回答已采纳
2
回答
序列、
tf-
国防军
和
余弦相似性
python
、
scipy
、
cluster-analysis
、
trigonometry
、
tf-idf
我试着用
python
根据
tf-
国防军矩阵
对
一些文档进行聚类。
idf
= np.log(
idf
)然后,我
使用
scipy
对
这些向量进行聚类: from scipy.cluster import hierarchymethod='complete',metric='cosine
浏览 2
提问于2012-12-03
得票数 2
回答已采纳
3
回答
CountVectorizer+TfidfTransformer
和
TfidfVectorizer有什么区别?
machine-learning
、
scikit-learn
、
tfidfvectorizer
、
countvectorizer
要将ML算法应用于文本,必须
对
其进行数值表示。
使用
sklearn进行此操作的一些方法如下: TfidfVectorizerCountVectorizer+TfidfTransformer
和
TfidfVectorizer有什么区别?
浏览 9
提问于2020-10-27
得票数 1
回答已采纳
2
回答
使用
TF-
下手测试
和
训练集具有不同数量的特征
scikit-learn
、
classification
、
tf-idf
、
training-data
我们将
使用
TF-
以色列国防军作为特征值,
使用
单词袋训练二进制分类器。我们为我们的培训文件提供了m特性(从技术上讲,m是我们
在
清理
和
预处理后的所有n个文档
中
拥有的唯一标记的数量)。我们首先应该像对待培训文件一样,
对
测试文件进行预处理。然后,我们应该
使用
TF-
以色列国防军为我们的测试文件构建一个特征向量。这里有两个问题: 对于培训
和
测试集,功能的数量将是不一样的。只
计算
一份测试文件,甚至其中几份,<
浏览 4
提问于2017-06-23
得票数 2
1
回答
如何在TfidfVectorizer中
计算
术语频率?
python-3.x
、
scikit-learn
、
tf-idf
我知道,默认情况下,TfidfVectorizer将在术语频率上应用l2规范
化
。文章解释了它的方程。我在用古吉拉特语写的文本上
使用
TfidfVectorizer。以下是它的输出细节:ખુબ વખાણ કરે છે 我
使用
的代码是:在这里,token
浏览 2
提问于2017-02-24
得票数 3
回答已采纳
2
回答
基于实例学习带关键字的句子标记
machine-learning
、
nlp
我不需要代码,我只是
在
寻找一些关于如何实现这一点的指针
和
方法/文件/可能的想法。
浏览 3
提问于2015-09-07
得票数 2
回答已采纳
1
回答
文档分类:
在
特征过滤之前还是之后?
classification
、
feature-selection
、
feature-extraction
我发现
tf-
以色列国防军在这方面可能非常有用。然而,我不知道该在什么时候
使用
它。
在
总结一个与特定主题有关的网站
时
,反复提到它,这是我目前的过程:正规
化
和
茎含量检索给定文档的每一毫克的计数,过滤低长度
和
低出现的单词。
在
结果集上训练分类器(如NaiveBayes ) 我的问题是:
tf-
以色列国防军在这里适合什么地方?
在
正常
化
/堵塞之前?
浏览 0
提问于2014-12-10
得票数 8
回答已采纳
4
回答
我如何可视
化
tf-
以色列国防军向量的
数据
点,以便进行kmeans聚类?
python
、
scipy
、
scikit-learn
、
k-means
、
tf-idf
我有一个文件清单
和
tf-
以色列国防军的分数,每个独特的词
在
整个语料库。我如何在二维图上想象它,给我一个度量我需要多少个星系团来运行k-方法?print "num_samples: %d, num_features: %d" %(num_samples,num_features)如你所见,我可以把我的句子转换成
tf
-国防军文件矩阵.但我不知道如何绘制
tf-
以色列国防军得分的
数据
点.
浏览 1
提问于2014-12-15
得票数 13
1
回答
使用
textVectorization创建子模型并在Keras
中
嵌入层:'str‘对象
在
Keras
中
没有属性'base_dtype’
python
、
tensorflow
、
keras
、
deep-learning
、
jupyter-notebook
我正在
使用
文本和数值
数据
建立一个多输入的Tensorflow NLP模型。为此,我计划创建两个子模型,一个用于文本,另一个用于数值
数据
,然后将它们的输出连接到我的主模型
中
。对于文本子模型,我一直
在
遵循文本矢量化
和
嵌入的Keras指南(
和
),并
使用
TF-
国防军加权,
对
所有的比例表进行索引。text_vectorizer.get_vocabulary())) vocab_size = len(text_vectorize
浏览 6
提问于2021-04-28
得票数 1
1
回答
使用
Python
查找文档频率
python
、
python-2.7
嘿,大家,我知道这里已经问过几次了,但是我很难用
python
找到文档频率。我试图找到
TF-
以色列国防军,然后找到他们之间的cosin分数
和
一个查询,但被困在寻找文件的频率。doc_
IDF
= [A for A in words_
IDF
if len(A) >= 3 and A.isalpha()] print TFvec else
浏览 1
提问于2016-02-04
得票数 1
回答已采纳
1
回答
火花流-卡夫卡推文流的分类
apache-spark
、
pyspark
、
spark-streaming
、
apache-spark-mllib
、
sentiment-analysis
上下文是以下 我有一个简单的卡夫卡生产者,它模拟一个推特流(从一个文件
中
读取)
和
一个TweetAnalyzer消费者,它应该处理
和
分类
在
一个火花流上下文上的推文,一旦它收到它们。为了对接收到的tweet进行分类,我已经
在
磁盘上建立并存储了TF
和
朴素贝叶斯模型,这些模型是
在
星火流上下文启动之前加载的。对于处理过的每个tweet (词干、标点符号等),我应该
计算
它的
TF-
以色列国防军向量(特征向量),并分别利用先前加载的以色列国防军<em
浏览 2
提问于2016-07-24
得票数 1
回答已采纳
2
回答
我可以获得Word2Vec
和
Doc2Vec矩阵来
计算
余弦相似度吗?
python
、
gensim
、
word2vec
、
doc2vec
我正在处理文本
数据
,目前我已经将我的
数据
放入术语文档矩阵
中
,并
计算
出TF,术语频率
和
TF-
IDF
,术语频率与文档频率相反。从这里看,我的矩阵如下所示:行名=单词 填充了他们的TF
和
TF-
IDF
分数。
在
我目前的大部分分析
中
,我一直
在
使用
R
中
的tm包,但为了更进一步,我已经开始
使用
Python
语言中的gensim库。
浏览 3
提问于2019-07-11
得票数 0
2
回答
如何在doc2vec中找到文档中最相似的术语/单词?
python
、
cluster-analysis
、
gensim
、
word2vec
、
doc2vec
我应用Doc2vec将文档转换为vectors.After,
在
聚类中
使用
向量,并
计算
出与每个集群的质心最接近/最相似的5个文档。我的问题是,
在
Doc2vec
中
,是否有任何方法可以找出文档中最主要或最简单的术语/单词。我正在
使用
python
的gensim包作为Doc2vec实现
浏览 3
提问于2017-09-05
得票数 0
回答已采纳
2
回答
为Textacy
中
的单个单词
计算
TD-
IDF
python
、
machine-learning
、
nlp
、
spacy
、
textacy
我试图
使用
来
计算
跨标准语料库的一个单词的
TF-
以色列国防军得分,但是对于我收到的结果有点不清楚。logger.info("tf_
idf
:") logger.i
浏览 1
提问于2019-04-19
得票数 5
回答已采纳
3
回答
将tf-
idf
用于分类任务,如情感分析任务,是否正确?
machine-learning
、
document-classification
我经常看到人们
在
情感分析等文本分类任务中
使用
tf-
idf
向量化。根据我的理解,它会惩罚出现在很多文档
中
的单词的分数。(倒置文档频率)通常我们会忽略那些超过0.5df的单词。然而,假设我正在做情感分析,我有一个单词出现在+ve评论的每个文档
中
,而在-ve评论的文档中出现的次数为零或很少。因此,在我看来,
使用
惩罚高文档频率是违反直觉的。 那么,将tf-
idf
矩阵用于文本分类任务是一个好主意吗?
浏览 4
提问于2015-11-04
得票数 1
2
回答
情感识别的分类
数据
集
opencv
、
csv
、
dataset
、
machine-learning
、
sentiment-analysis
我从事一些研究教育工作,需要有分类面部情感的
数据
集来训练分类器。例如,性别分类很简单:我可以创建csv文件,并根据性别将任何图像标记为0或1。就像这样: .../..我找到了带有关键点的图像
数据
集,因此我可以根据不同的情绪
对
它们进行聚类,但是如果以前手动标记它们,则会有更高的准确性。也许有人有直接的信息源,或者有类似信息的链接。谢谢。
浏览 4
提问于2013-11-02
得票数 2
3
回答
在
比较不同格式的文档
时
替代
TF-
国防军
和
余弦相似的方法
nlp
、
text-mining
、
similarity
、
cosine-distance
我
使用
一个职务列表
数据
库来实现这一点。目前,该代码的工作方式如下:2)每项职业(如:),将该职业的职务列表的处理文本合并到一个文档
中
。3)
计算
职业文件
中
每项技能的
TF-
国防军。 在此之后,我不确定应该
使用
哪种方法根据用户的技能列表
对
职业进行排名。我见过的最流行的方法是将用户的技能也当作文档来处理,然后
计算
技能文档的
TF-
国防军,然后
使用
余弦相似度
浏览 0
提问于2017-01-02
得票数 15
1
回答
tf-
以色列国防军不同长度的文件
python
、
normalization
、
tf-idf
、
textblob
我发现的唯一的规范
化
讨论是将术语频率除以文档的长度,从而导致文档的长度没有任何意义。这使得tf-
idf
等级
在
与doc1匹配时会自动大于d
浏览 2
提问于2016-09-26
得票数 10
回答已采纳
1
回答
在
BigQuery中
使用
javascript
计算
tf
时
UDF工作人员
在
执行过程
中
超时
javascript
、
google-bigquery
、
user-defined-functions
、
tf-idf
我尝试
在
BigQuery
中
实现一个查询,该查询可以
使用
to从更大的文档集合
中
为文档查找顶级关键字。
在
计算
关键字的
tf-
国防军得分之前,我清理文档(例如删除停止词
和
标点符号),然后从文档
中
创建1、2、3
和
4克,然后
在
n克中进行词干处理。为了执行这一清理,我
使用
javascript库
和
js创建和词干。现在,当我在上尝试查询
时
,大约30分钟后,该查询将
浏览 1
提问于2019-07-30
得票数 0
3
回答
使用
tf-
以色列国防军
和
FastText载体
python
、
nlp
、
fasttext
我
对
在
FastText库中
使用
tf很感兴趣,但是找到了一种处理ngram的逻辑方法。我已经
在
SpaCy向量中
使用
了
tf-
以色列国防军,我已经找到了几个类似的例子: model["Listen to the latest news summary"] model
浏览 3
提问于2019-09-23
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Google Plus 文本提取与分析2
什么是流式计算 另一个世界系列
Python在文本自动化处理中的应用
数据科学入门 选Python还是R
文本向量空间模型
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券