如何在使用TF-IDF时保留另一列_如何在使用.split()函数时保留列标题_如何在提取列时保留pandas索引 - 腾讯云开发者社区

、、

我有一个包含两列数据的pandas数据帧。第一列有文本，第二列有浮点值 cleaned_text | interaction_durationphilippinesa category fault total failurea priority p higha open time 23.0 我想将文本转换为TF-IDF问题是使用Scikit-learn的TF

浏览 16提问于2020-10-27得票数 0

1回答

如何在单个文档中查找单词相关性？

、、、、

我想要在一个文档中找到一些词(如经济，技术)的相关性。文档大约有30页，其想法是提取所有文本并确定与此文档的单词相关性。我知道在一组文档中使用TF-IDF，但是是否可以使用TF-IDF来解决这个问题？如果没有，我如何在Python中做到这一点？

浏览 1提问于2019-04-01得票数 0

1回答

在熊猫中加入使用栏名

、、、

我在熊猫里有两个数据，一个是开头的：另一种是TF-IDF操作的结果。因此，基本上，Name是按Group分组的，然后应用sklearn TF-IDF就像这样：from sklearn.feature_extraction.texttfidf.toarray(), columns=vect.get_feature_names()) 现在，我想加入两个dataframe (当然，我可以<e

浏览 1提问于2021-07-11得票数 1

回答已采纳

1回答

我只在列表中的第一个文档上获得了TD-IDF权重。其余的都是零！X = tfidf_vectorizer.fit_transform(docs) pd.DataFrame(X[0].T.todense(), index=tfidf_vectorizer.get_feature_names(), columns=["tfidf"]).sort_values(by=["tfidf"],ascending=False).head(1

浏览 0提问于2020-03-20得票数 0

1回答

TF-IDF在pandas数据帧中的应用

我正在尝试使用TF-IDF在pandas中使用数据集内容，两列第一列它包含文本数据，另一列它包含分类数据看起来像blow summary基础设施不明的犯罪者扔了莫洛托夫鸡尾酒...基础设施我想使用tf-idf来转换第一列，然后使用它来构建预测包含攻击类型的第二列的模式

浏览 15提问于2019-10-05得票数 0

1回答

如何在文本数据中基于冒号分隔符的pandas列上应用TF-IDF

、、

我想在这个文本专栏中实现TF-IDF。pagename': ['home:cart:checkout:buy:home','home:cart:cart:home','home:account:home']})现在，我想应用tf-idf当我尝试下面的代码时，它不工作-tf_idf_model = TfidfVectoriz

浏览 9提问于2021-06-12得票数 0

2回答

单字和双字(tf-idf)不如单字(ff-idf)准确？

、、、、

这是一个关于ngram的线性回归问题，使用Tf-IDF (术语频率-逆文档频率)。为此，我使用numpy稀疏矩阵和sklearn进行线性回归。当我使用unigram时，我有53个案例和6000多个特征。这些预测是基于使用LeaveOneOut的交叉验证。当我创建一个只有一元语法分数的tf-idf稀疏矩阵时，我得到的预测比创建unigram+bigram分数的tf-idf稀疏矩阵时略好一些。我在矩阵中添加的列<

浏览 0提问于2012-09-03得票数 4

回答已采纳

1回答

如何才能让Scikit-learn TfidfVectorizer不对文本进行预处理？

、、

我从csv中读取了一些文本数据，并尝试使用这些数据构建TF-IDF特征向量。数据看起来像这样： ? 其中内容包含特殊格式的字符串(synset)。当我尝试使用该格式构建TF-IDF向量时，我希望保留该格式，但当我这样做时 tfidf = TfidfVectorizer() data['content'] = data['content'].fillna如果我从头开始构建TF-IDF，我可以做到这一点，但

浏览 21提问于2019-06-20得票数 1

回答已采纳

2回答

Apache lucene倒排索引

、、

Lucene索引是否使用tf-idf作为权重？是否可以为每个文档定义自己的统计数据和权重，并将其“插入”到Lucene中？

浏览 3提问于2013-07-10得票数 0

2回答

MySQL保留列名

、、

经过反复试验，我尝试获取它正在使用的确切查询并执行它，发现问题是mysql错误"#1060 - Duplicate column name 'name'“。我敢肯定它不是保留列名，因为它在完全相同的数据库中的另一个表中被用作保留列名。有没有人遇到过这样的问题？

浏览 3提问于2010-11-14得票数 0

1回答

基于部分词的文档搜索

、、、、

我正在寻找一个文档搜索引擎(如Xapian，呼呼，Lucene，Solr，狮身人面像或其他)，能够搜索部分术语。例如，当搜索“英国人”时，搜索引擎应该返回包含"britney“或"brit”的文档，或者通常返回包含匹配r*brit*的单词的任何文档。另外，我注意到大多数引擎都使用TF-IDF (术语频率-反向文档频率)或其衍生工具，它们是基于完整术语而不是部分术语的。除了TF-IDF之外，还有其他已经成功实现的文档检索技术吗？

浏览 0提问于2011-04-26得票数 14

回答已采纳

2回答

在keras Tokenizer中使用tf-idf

、、、

我有一个dataframe，其中第一行的列标题包含以下文本：使用以下代码：print(sequences[0])[57, 1, 21, 7]增加vocabulary_size还会标

浏览 3提问于2018-09-07得票数 5

1回答

elasticsearch索引是否跨删除持久存储信息？

如果我删除了该索引上的所有文档，但保留了该索引本身，那么它是否会保留该字段上tf-idf评分中使用的标记？在删除所有文档时，评分数据中是否有记忆？

浏览 1提问于2015-01-21得票数 0

1回答

在实现MVP时，在Android中保留演示者的最佳实践是什么？

、、

如何在配置更改时保留演示文稿？我不介意使用MVP框架，如Mosby或Nucleus，但我认为Mosby的方法并不是最好的方法。在带有UI的片段中使用Fragment.setRetainInstance(true)不应该在这里的许多帖子中使用，因此，它也不应该与后端一起使用。也许还有更好的方法？

浏览 4提问于2016-04-05得票数 1

回答已采纳

3回答

Numpy hstack - "ValueError:所有输入数组必须具有相同的维数“-但它们确实如此

、、、、

在一个示例中，在对单列文本运行TF-IDF之后，我有一组列/功能。在另一个中，我有一个列/特征，它是一个整数。所以我读入了一列训练和测试数据，对此运行TF-IDF，然后我想添加另一个整数列，因为我认为这将帮助我的分类器更准确地了解它应该如何表现。不幸的是，当我尝试运行hstack将这一列添加到我的另一个numpy数组中时，标题中出现了错误。据我所知，我应该能够加入这些列？我误解了

浏览 1提问于2014-03-08得票数 20

回答已采纳

1回答

在制作电子商务网站的搜索引擎时，如何处理空格错误的搜索查询？

、、、、

我目前使用tf-idf和余弦相似度来返回最重要的结果，但我尽量减少内存使用量，因为内容很大。那么我可以用什么来处理这个问题呢？一种解决方案是保留内容的所有ngram的有空间和无空间的记录。另一个例子-如果用户搜索nikeshoes。现在，耐克是一个品牌，但耐克不是一个品牌。如果搜索查询是nike shoes，那么它将返回nike作为品牌。这里的内容指的是品牌名称。

浏览 4提问于2016-05-27得票数 1

2回答

文档大小调整Search.Score -实际上降低了评分配置文件分数

我们正在使用评分配置文件来驱动相关性并调整分数，即使用评分配置文件中的函数将属性isActive的相关性提升为1/ 50，同时通过传递&searchFields=*搜索索引上的特定字段然而，Search.Score似乎受到文档大小的高度挤压，较小的大小得分较高，这可能是由于TF-IDF…。。这违背了使用评分配置文件的目的，但是在我们的例子中，我们不希望因为文档的大小而影响评分，因为我们传递的是searchFields。

浏览 23提问于2020-07-01得票数 0

回答已采纳

2回答

在MySQL中将列数据类型从VARCHAR转换为DATE？

我有一个VARCHAR数据类型的列，它的日期(值)作为字符串，如dd/mm/yyyyALTER TABLE t1 MODIFYcol1 DATE;如何在不丢失数据的情况下更改列数据类型。

浏览 5提问于2019-03-27得票数 1

回答已采纳

4回答

在read_excel中保留特定列

、

我只想保留A列和C列而不是B列(按顺序是A、B、C列)，但下面的代码也保留B列。如何在不对另一行代码进行子集的情况下删除B列？

浏览 8提问于2018-08-17得票数 2

1回答

创建表时mysql错误1064。我能查到什么？

、

我在第21行得到了一个错误1064 (42000)，这是车辆表中的VIN_Number。实体库存是在没有问题的情况下生成的，VIN_Number是varchar(17)类型的所有事件。我相信这些桌子是按正确的顺序建造的。我找不到任何拼写或标点符号错误。我想不出该检查的东西了。我错过了什么？ALTER TABLE Vehicle DROP FOREIGN KEY fk_Veh_Vehicle_TypeID;A

浏览 3提问于2016-04-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云