腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
使用
TF-IDF
时
保留
另一
列
、
、
我有一个包含两
列
数据的pandas数据帧。第一
列
有文本,第二
列
有浮点值 cleaned_text | interaction_durationphilippinesa category fault total failurea priority p higha open time 23.0 我想将文本转换为
TF-IDF
问题是
使用
Scikit-learn的
TF
浏览 16
提问于2020-10-27
得票数 0
1
回答
如
何在
单个文档中查找单词相关性?
、
、
、
、
我想要在一个文档中找到一些词(
如
经济,技术)的相关性。 文档大约有30页,其想法是提取所有文本并确定与此文档的单词相关性。我知道在一组文档中
使用
TF-IDF
,但是是否可以
使用
TF-IDF
来解决这个问题?如果没有,我如
何在
Python中做到这一点?
浏览 1
提问于2019-04-01
得票数 0
1
回答
在熊猫中加入
使用
栏名
、
、
、
我在熊猫里有两个数据,一个是开头的:
另一
种是
TF-IDF
操作的结果。因此,基本上,Name是按Group分组的,然后应用sklearn
TF-IDF
就像这样:from sklearn.feature_extraction.texttfidf.toarray(), columns=vect.get_feature_names()) 现在,我想加入两个dataframe (当然,我可以<e
浏览 1
提问于2021-07-11
得票数 1
回答已采纳
1
回答
TfidfVectorizer仅处理第一个文档
我只在列表中的第一个文档上获得了TD-IDF权重。其余的都是零!X = tfidf_vectorizer.fit_transform(docs) pd.DataFrame(X[0].T.todense(), index=tfidf_vectorizer.get_feature_names(), columns=["tfidf"]).sort_values(by=["tfidf"],ascending=False).head(1
浏览 0
提问于2020-03-20
得票数 0
1
回答
TF-IDF
在pandas数据帧中的应用
我正在尝试
使用
TF-IDF
在pandas中
使用
数据集内容,两
列
第一
列
它包含文本数据,
另一
列
它包含分类数据看起来像blow summary基础设施不明的犯罪者扔了莫洛托夫鸡尾酒...基础设施 我想
使用
tf-idf
来转换第一
列
,然后
使用
它来构建预测包含攻击类型的第二
列
的模式
浏览 15
提问于2019-10-05
得票数 0
1
回答
如
何在
文本数据中基于冒号分隔符的pandas列上应用
TF-IDF
、
、
我想在这个文本专栏中实现
TF-IDF
。pagename': ['home:cart:checkout:buy:home','home:cart:cart:home','home:account:home']})现在,我想应用
tf-idf
当我尝试下面的代码
时
,它不工作-tf_idf_model = TfidfVectoriz
浏览 9
提问于2021-06-12
得票数 0
2
回答
单字和双字(
tf-idf
)不如单字(ff-idf)准确?
、
、
、
、
这是一个关于ngram的线性回归问题,
使用
Tf-IDF
(术语频率-逆文档频率)。为此,我
使用
numpy稀疏矩阵和sklearn进行线性回归。当我
使用
unigram
时
,我有53个案例和6000多个特征。这些预测是基于
使用
LeaveOneOut的交叉验证。当我创建一个只有一元语法分数的
tf-idf
稀疏矩阵
时
,我得到的预测比创建unigram+bigram分数的
tf-idf
稀疏矩阵
时
略好一些。我在矩阵中添加的
列<
浏览 0
提问于2012-09-03
得票数 4
回答已采纳
1
回答
如何才能让Scikit-learn TfidfVectorizer不对文本进行预处理?
、
、
我从csv中读取了一些文本数据,并尝试
使用
这些数据构建
TF-IDF
特征向量。 数据看起来像这样: ? 其中内容包含特殊格式的字符串(synset)。当我尝试
使用
该格式构建
TF-IDF
向量
时
,我希望
保留
该格式,但当我这样做
时
tfidf = TfidfVectorizer() data['content'] = data['content'].fillna如果我从头开始构建
TF-IDF
,我可以做到这一点,但
浏览 21
提问于2019-06-20
得票数 1
回答已采纳
2
回答
Apache lucene倒排索引
、
、
Lucene索引是否
使用
tf-idf
作为权重?是否可以为每个文档定义自己的统计数据和权重,并将其“插入”到Lucene中?
浏览 3
提问于2013-07-10
得票数 0
2
回答
MySQL
保留
列名
、
、
经过反复试验,我尝试获取它正在
使用
的确切查询并执行它,发现问题是mysql错误"#1060 - Duplicate column name 'name'“。我敢肯定它不是
保留
列名,因为它在完全相同的数据库中的
另一
个表中被用作
保留
列名。有没有人遇到过这样的问题?
浏览 3
提问于2010-11-14
得票数 0
1
回答
基于部分词的文档搜索
、
、
、
、
我正在寻找一个文档搜索引擎(
如
Xapian,呼呼,Lucene,Solr,狮身人面像或其他),能够搜索部分术语。例如,当搜索“英国人”
时
,搜索引擎应该返回包含"britney“或"brit”的文档,或者通常返回包含匹配r*brit*的单词的任何文档。另外,我注意到大多数引擎都
使用
TF-IDF
(术语频率-反向文档频率)或其衍生工具,它们是基于完整术语而不是部分术语的。除了
TF-IDF
之外,还有其他已经成功实现的文档检索技术吗?
浏览 0
提问于2011-04-26
得票数 14
回答已采纳
2
回答
在keras Tokenizer中
使用
tf-idf
、
、
、
我有一个dataframe,其中第一行的
列
标题包含以下文本:
使用
以下代码:print(sequences[0])[57, 1, 21, 7]增加vocabulary_size还会标
浏览 3
提问于2018-09-07
得票数 5
1
回答
elasticsearch索引是否跨删除持久存储信息?
如果我删除了该索引上的所有文档,但
保留
了该索引本身,那么它是否会
保留
该字段上
tf-idf
评分中
使用
的标记?在删除所有文档
时
,评分数据中是否有记忆?
浏览 1
提问于2015-01-21
得票数 0
1
回答
在实现MVP
时
,在Android中
保留
演示者的最佳实践是什么?
、
、
如
何在
配置更改时
保留
演示文稿?我不介意
使用
MVP框架,
如
Mosby或Nucleus,但我认为Mosby的方法并不是最好的方法。在带有UI的片段中
使用
Fragment.setRetainInstance(true)不应该在这里的许多帖子中
使用
,因此,它也不应该与后端一起
使用
。也许还有更好的方法?
浏览 4
提问于2016-04-05
得票数 1
回答已采纳
3
回答
Numpy hstack - "ValueError:所有输入数组必须具有相同的维数“-但它们确实如此
、
、
、
、
在一个示例中,在对单列文本运行
TF-IDF
之后,我有一组
列
/功能。在
另一
个中,我有一个
列
/特征,它是一个整数。所以我读入了一
列
训练和测试数据,对此运行
TF-IDF
,然后我想添加
另一
个整数列,因为我认为这将帮助我的分类器更准确地了解它应该如何表现。不幸的是,当我尝试运行hstack将这一
列
添加到我的
另一
个numpy数组中
时
,标题中出现了错误。据我所知,我应该能够加入这些
列
?我误解了
浏览 1
提问于2014-03-08
得票数 20
回答已采纳
1
回答
在制作电子商务网站的搜索引擎
时
,如何处理空格错误的搜索查询?
、
、
、
、
我目前
使用
tf-idf
和余弦相似度来返回最重要的结果,但我尽量减少内存
使用
量,因为内容很大。那么我可以用什么来处理这个问题呢?一种解决方案是
保留
内容的所有ngram的有空间和无空间的记录。
另一
个例子-如果用户搜索nikeshoes。现在,耐克是一个品牌,但耐克不是一个品牌。如果搜索查询是nike shoes,那么它将返回nike作为品牌。这里的内容指的是品牌名称。
浏览 4
提问于2016-05-27
得票数 1
2
回答
文档大小调整Search.Score -实际上降低了评分配置文件分数
我们正在
使用
评分配置文件来驱动相关性并调整分数,即
使用
评分配置文件中的函数将属性isActive的相关性提升为1/ 50,同时通过传递&searchFields=*搜索索引上的特定字段 然而,Search.Score似乎受到文档大小的高度挤压,较小的大小得分较高,这可能是由于
TF-IDF
…。。这违背了
使用
评分配置文件的目的,但是在我们的例子中,我们不希望因为文档的大小而影响评分,因为我们传递的是searchFields。
浏览 23
提问于2020-07-01
得票数 0
回答已采纳
2
回答
在MySQL中将
列
数据类型从VARCHAR转换为DATE?
我有一个VARCHAR数据类型的
列
,它的日期(值)作为字符串,
如
dd/mm/yyyyALTER TABLE t1 MODIFYcol1 DATE;如
何在
不丢失数据的情况下更改
列
数据类型。
浏览 5
提问于2019-03-27
得票数 1
回答已采纳
4
回答
在read_excel中
保留
特定
列
、
我只想
保留
A
列
和C
列
而不是B
列
(按顺序是A、B、C
列
),但下面的代码也
保留
B
列
。如
何在
不对
另一
行代码进行子集的情况下删除B
列
?
浏览 8
提问于2018-08-17
得票数 2
1
回答
创建表
时
mysql错误1064。我能查到什么?
、
我在第21行得到了一个错误1064 (42000),这是车辆表中的VIN_Number。实体库存是在没有问题的情况下生成的,VIN_Number是varchar(17)类型的所有事件。我相信这些桌子是按正确的顺序建造的。我找不到任何拼写或标点符号错误。我想不出该检查的东西了。我错过了什么?ALTER TABLE Vehicle DROP FOREIGN KEY fk_Veh_Vehicle_TypeID;A
浏览 3
提问于2016-04-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
干货 Kaggle Grandmaster的NLP 方法
使用NLPAUG 进行文本数据的扩充增强
6,特征的提取
70个NumPy分级练习:用Python一举搞定机器学习矩阵运算
70个NumPy练习:在Python下一举搞定机器学习矩阵运算
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券