腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Python
中
对
Twitter
数据
框
使用
列举
化
和
Tf-
Idf
计算
时
出错
python
、
tf-idf
、
lemmatization
我有一个tweet的
数据
帧,我试图
在
词条
化
的'tweet‘列上
计算
Tf-
Idf
。我对词汇
化
的结果有一个问题,并且
在
尝试
计算
Tf-
Idf
时
得到一个错误。w_tokenizer.tokenize(tweet)] df['tweet_lemmatized'] = df['tweet'].apply(lemmatize_text) 这是一个包含新列‘tweet_lemmat
浏览 54
提问于2020-07-27
得票数 2
回答已采纳
2
回答
序列、
tf-
国防军
和
余弦相似性
python
、
scipy
、
cluster-analysis
、
trigonometry
、
tf-idf
我试着用
python
根据
tf-
国防军矩阵
对
一些文档进行聚类。
idf
= np.log(
idf
)然后,我
使用
scipy
对
这些向量进行聚类: from scipy.cluster import hierarchymethod='complete',metric='cosine
浏览 2
提问于2012-12-03
得票数 2
回答已采纳
3
回答
CountVectorizer+TfidfTransformer
和
TfidfVectorizer有什么区别?
machine-learning
、
scikit-learn
、
tfidfvectorizer
、
countvectorizer
要将ML算法应用于文本,必须
对
其进行数值表示。
使用
sklearn进行此操作的一些方法如下: TfidfVectorizerCountVectorizer+TfidfTransformer
和
TfidfVectorizer有什么区别?
浏览 9
提问于2020-10-27
得票数 1
回答已采纳
2
回答
使用
TF-
下手测试
和
训练集具有不同数量的特征
scikit-learn
、
classification
、
tf-idf
、
training-data
我们将
使用
TF-
以色列国防军作为特征值,
使用
单词袋训练二进制分类器。我们为我们的培训文件提供了m特性(从技术上讲,m是我们
在
清理
和
预处理后的所有n个文档
中
拥有的唯一标记的数量)。我们首先应该像对待培训文件一样,
对
测试文件进行预处理。然后,我们应该
使用
TF-
以色列国防军为我们的测试文件构建一个特征向量。这里有两个问题: 对于培训
和
测试集,功能的数量将是不一样的。只
计算
一份测试文件,甚至其中几份,<
浏览 4
提问于2017-06-23
得票数 2
1
回答
如何在TfidfVectorizer中
计算
术语频率?
python-3.x
、
scikit-learn
、
tf-idf
我知道,默认情况下,TfidfVectorizer将在术语频率上应用l2规范
化
。文章解释了它的方程。我在用古吉拉特语写的文本上
使用
TfidfVectorizer。以下是它的输出细节:ખુબ વખાણ કરે છે 我
使用
的代码是:在这里,token
浏览 2
提问于2017-02-24
得票数 3
回答已采纳
2
回答
基于实例学习带关键字的句子标记
machine-learning
、
nlp
我不需要代码,我只是
在
寻找一些关于如何实现这一点的指针
和
方法/文件/可能的想法。
浏览 3
提问于2015-09-07
得票数 2
回答已采纳
1
回答
文档分类:
在
特征过滤之前还是之后?
classification
、
feature-selection
、
feature-extraction
我发现
tf-
以色列国防军在这方面可能非常有用。然而,我不知道该在什么时候
使用
它。
在
总结一个与特定主题有关的网站
时
,反复提到它,这是我目前的过程:正规
化
和
茎含量检索给定文档的每一毫克的计数,过滤低长度
和
低出现的单词。
在
结果集上训练分类器(如NaiveBayes ) 我的问题是:
tf-
以色列国防军在这里适合什么地方?
在
正常
化
/堵塞之前?
浏览 0
提问于2014-12-10
得票数 8
回答已采纳
4
回答
我如何可视
化
tf-
以色列国防军向量的
数据
点,以便进行kmeans聚类?
python
、
scipy
、
scikit-learn
、
k-means
、
tf-idf
我有一个文件清单
和
tf-
以色列国防军的分数,每个独特的词
在
整个语料库。我如何在二维图上想象它,给我一个度量我需要多少个星系团来运行k-方法?print "num_samples: %d, num_features: %d" %(num_samples,num_features)如你所见,我可以把我的句子转换成
tf
-国防军文件矩阵.但我不知道如何绘制
tf-
以色列国防军得分的
数据
点.
浏览 1
提问于2014-12-15
得票数 13
1
回答
使用
textVectorization创建子模型并在Keras
中
嵌入层:'str‘对象
在
Keras
中
没有属性'base_dtype’
python
、
tensorflow
、
keras
、
deep-learning
、
jupyter-notebook
我正在
使用
文本和数值
数据
建立一个多输入的Tensorflow NLP模型。为此,我计划创建两个子模型,一个用于文本,另一个用于数值
数据
,然后将它们的输出连接到我的主模型
中
。对于文本子模型,我一直
在
遵循文本矢量化
和
嵌入的Keras指南(
和
),并
使用
TF-
国防军加权,
对
所有的比例表进行索引。text_vectorizer.get_vocabulary())) vocab_size = len(text_vectorize
浏览 6
提问于2021-04-28
得票数 1
1
回答
使用
Python
查找文档频率
python
、
python-2.7
嘿,大家,我知道这里已经问过几次了,但是我很难用
python
找到文档频率。我试图找到
TF-
以色列国防军,然后找到他们之间的cosin分数
和
一个查询,但被困在寻找文件的频率。doc_
IDF
= [A for A in words_
IDF
if len(A) >= 3 and A.isalpha()] print TFvec else
浏览 1
提问于2016-02-04
得票数 1
回答已采纳
1
回答
火花流-卡夫卡推文流的分类
apache-spark
、
pyspark
、
spark-streaming
、
apache-spark-mllib
、
sentiment-analysis
上下文是以下 我有一个简单的卡夫卡生产者,它模拟一个推特流(从一个文件
中
读取)
和
一个TweetAnalyzer消费者,它应该处理
和
分类
在
一个火花流上下文上的推文,一旦它收到它们。为了对接收到的tweet进行分类,我已经
在
磁盘上建立并存储了TF
和
朴素贝叶斯模型,这些模型是
在
星火流上下文启动之前加载的。对于处理过的每个tweet (词干、标点符号等),我应该
计算
它的
TF-
以色列国防军向量(特征向量),并分别利用先前加载的以色列国防军<em
浏览 2
提问于2016-07-24
得票数 1
回答已采纳
2
回答
我可以获得Word2Vec
和
Doc2Vec矩阵来
计算
余弦相似度吗?
python
、
gensim
、
word2vec
、
doc2vec
我正在处理文本
数据
,目前我已经将我的
数据
放入术语文档矩阵
中
,并
计算
出TF,术语频率
和
TF-
IDF
,术语频率与文档频率相反。从这里看,我的矩阵如下所示:行名=单词 填充了他们的TF
和
TF-
IDF
分数。
在
我目前的大部分分析
中
,我一直
在
使用
R
中
的tm包,但为了更进一步,我已经开始
使用
Python
语言中的gensim库。
浏览 3
提问于2019-07-11
得票数 0
2
回答
如何在doc2vec中找到文档中最相似的术语/单词?
python
、
cluster-analysis
、
gensim
、
word2vec
、
doc2vec
我应用Doc2vec将文档转换为vectors.After,
在
聚类中
使用
向量,并
计算
出与每个集群的质心最接近/最相似的5个文档。我的问题是,
在
Doc2vec
中
,是否有任何方法可以找出文档中最主要或最简单的术语/单词。我正在
使用
python
的gensim包作为Doc2vec实现
浏览 3
提问于2017-09-05
得票数 0
回答已采纳
2
回答
为Textacy
中
的单个单词
计算
TD-
IDF
python
、
machine-learning
、
nlp
、
spacy
、
textacy
我试图
使用
来
计算
跨标准语料库的一个单词的
TF-
以色列国防军得分,但是对于我收到的结果有点不清楚。logger.info("tf_
idf
:") logger.i
浏览 1
提问于2019-04-19
得票数 5
回答已采纳
3
回答
将tf-
idf
用于分类任务,如情感分析任务,是否正确?
machine-learning
、
document-classification
我经常看到人们
在
情感分析等文本分类任务中
使用
tf-
idf
向量化。根据我的理解,它会惩罚出现在很多文档
中
的单词的分数。(倒置文档频率)通常我们会忽略那些超过0.5df的单词。然而,假设我正在做情感分析,我有一个单词出现在+ve评论的每个文档
中
,而在-ve评论的文档中出现的次数为零或很少。因此,在我看来,
使用
惩罚高文档频率是违反直觉的。 那么,将tf-
idf
矩阵用于文本分类任务是一个好主意吗?
浏览 4
提问于2015-11-04
得票数 1
2
回答
情感识别的分类
数据
集
opencv
、
csv
、
dataset
、
machine-learning
、
sentiment-analysis
我从事一些研究教育工作,需要有分类面部情感的
数据
集来训练分类器。例如,性别分类很简单:我可以创建csv文件,并根据性别将任何图像标记为0或1。就像这样: .../..我找到了带有关键点的图像
数据
集,因此我可以根据不同的情绪
对
它们进行聚类,但是如果以前手动标记它们,则会有更高的准确性。也许有人有直接的信息源,或者有类似信息的链接。谢谢。
浏览 4
提问于2013-11-02
得票数 2
3
回答
在
比较不同格式的文档
时
替代
TF-
国防军
和
余弦相似的方法
nlp
、
text-mining
、
similarity
、
cosine-distance
我
使用
一个职务列表
数据
库来实现这一点。目前,该代码的工作方式如下:2)每项职业(如:),将该职业的职务列表的处理文本合并到一个文档
中
。3)
计算
职业文件
中
每项技能的
TF-
国防军。 在此之后,我不确定应该
使用
哪种方法根据用户的技能列表
对
职业进行排名。我见过的最流行的方法是将用户的技能也当作文档来处理,然后
计算
技能文档的
TF-
国防军,然后
使用
余弦相似度
浏览 0
提问于2017-01-02
得票数 15
1
回答
tf-
以色列国防军不同长度的文件
python
、
normalization
、
tf-idf
、
textblob
我发现的唯一的规范
化
讨论是将术语频率除以文档的长度,从而导致文档的长度没有任何意义。这使得tf-
idf
等级
在
与doc1匹配时会自动大于d
浏览 2
提问于2016-09-26
得票数 10
回答已采纳
1
回答
在
BigQuery中
使用
javascript
计算
tf
时
UDF工作人员
在
执行过程
中
超时
javascript
、
google-bigquery
、
user-defined-functions
、
tf-idf
我尝试
在
BigQuery
中
实现一个查询,该查询可以
使用
to从更大的文档集合
中
为文档查找顶级关键字。
在
计算
关键字的
tf-
国防军得分之前,我清理文档(例如删除停止词
和
标点符号),然后从文档
中
创建1、2、3
和
4克,然后
在
n克中进行词干处理。为了执行这一清理,我
使用
javascript库
和
js创建和词干。现在,当我在上尝试查询
时
,大约30分钟后,该查询将
浏览 1
提问于2019-07-30
得票数 0
3
回答
使用
tf-
以色列国防军
和
FastText载体
python
、
nlp
、
fasttext
我
对
在
FastText库中
使用
tf很感兴趣,但是找到了一种处理ngram的逻辑方法。我已经
在
SpaCy向量中
使用
了
tf-
以色列国防军,我已经找到了几个类似的例子: model["Listen to the latest news summary"] model
浏览 3
提问于2019-09-23
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Google Plus 文本提取与分析2
什么是流式计算 另一个世界系列
Python在文本自动化处理中的应用
数据科学入门 选Python还是R
文本向量空间模型
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券