文章/答案/技术大牛

发布

如何对相似的字符串进行分组，并为R中的每个组创建索引变量？

对相似的字符串进行分组，并为R中的每个组创建索引变量，可以通过以下步骤实现：

首先，需要定义相似性的度量标准。常用的相似性度量方法包括编辑距离、余弦相似度、Jaccard相似度等。选择适合你的数据和需求的相似性度量方法。
将字符串数据加载到R中，并进行预处理。可以使用字符串处理函数，如strsplit()、gsub()等，去除不需要的字符、标点符号或空格，并将字符串转换为小写字母。
使用相似性度量方法计算每对字符串之间的相似性。可以使用字符串匹配函数，如adist()、stringdist()等，计算字符串之间的距离或相似度。
基于相似性度量结果，进行字符串的分组。可以使用聚类算法，如层次聚类、K均值聚类等，将相似的字符串归为一组。可以使用R中的聚类函数，如hclust()、kmeans()等。
为每个分组创建索引变量。可以使用factor()函数将分组结果转换为因子变量，并为每个组分配一个唯一的整数值作为索引。

以下是一个示例代码，演示如何对相似的字符串进行分组并创建索引变量：

# 加载必要的包
library(stringdist)

# 定义相似性度量方法
similarity_measure <- function(x, y) {
  # 使用Jaccard相似度计算字符串之间的相似性
  intersection <- length(intersect(strsplit(x, "")[[1]], strsplit(y, "")[[1]]))
  union <- length(union(strsplit(x, "")[[1]], strsplit(y, "")[[1]]))
  similarity <- intersection / union
  return(similarity)
}

# 示例字符串数据
strings <- c("apple", "banana", "apricot", "orange", "grape", "apartment", "grapefruit")

# 预处理字符串数据
strings <- tolower(strings)

# 计算相似性矩阵
similarity_matrix <- stringdistmatrix(strings, strings, method = similarity_measure)

# 进行字符串分组
groups <- hclust(as.dist(1 - similarity_matrix), method = "complete")$order

# 创建索引变量
index <- factor(groups)

# 打印分组结果和索引变量
result <- data.frame(String = strings, Group = index)
print(result)

在上述示例代码中，我们使用Jaccard相似度作为相似性度量方法，计算字符串之间的相似性。然后，使用层次聚类算法将相似的字符串分组，并为每个组创建了索引变量。最后，将分组结果和索引变量打印出来。

请注意，以上示例代码仅为演示目的，实际应用中可能需要根据具体需求进行调整和优化。另外，腾讯云相关产品和产品介绍链接地址可以根据具体需求和场景进行选择，建议参考腾讯云官方文档或咨询腾讯云技术支持获取更详细的信息。

如何对相似的字符串进行分组，并为R中的每个组创建索引变量？

、

我有一个数据集，它有可变的公司。原始的数据结构是一个下拉列表。我抓取了数据，现在有几行属于同一家公司。

浏览 21提问于2021-06-08得票数 0

3回答

当没有标准列表时，在python中对公司名称进行聚类

、、、

我有一个熊猫数据框中的公司名称列表，我想将这些相似的名称分组，检查并为每个组创建一个标准名称。我看到的大多数解决方案都是将一个值映射到标准值，但我只想对相似的列表进行分组。在许多情况下，它们可能不是以相同的单词开头的 E & P COMPAN

浏览 1提问于2020-07-22得票数 0

1回答

创建主题字段组

、、

我有一个带有几个字段的自定义实体。现在，我想对字段进行分组，并为每个组提供自己的树枝模板，这样我就能够构建一个包含几个部分(字段组)的页面(我的自定义实体)。你会怎么做？我是对实体预处理函数中的字段进行分组，并为每个组赋予自己的'

浏览 0提问于2015-01-23得票数 2

回答已采纳

2回答

如何让一个app在两个不同的设备上显示相同的数据？

、

我想做一个应用程序，可以使拥有此应用程序的人的“组”，并显示该组中的人相同的信息。编辑：我想要的是这样的:想象一下没有聊天和东西的应用程序会是什么样子，而是那种类型的群。我希望人们<em

浏览 0提问于2015-11-24得票数 0

2回答

将名称包含在字符串变量中的工作表分组

、

我想在字符串变量中对具有工作表名称的多个工作表进行分组，该组工作表将用于格式化该组中的每个工作表。字符串(我们称其为SheetsFormat)包含所有需要格式化的工作表名称，字符串中的每个值都在动态字符串创建时添加到动态字符串</e

浏览 0提问于2015-05-28得票数 0

1回答

R中的群时间序列动态观测

、、

我有五天的时间序列数据，格式化为xts对象.产生这些数据的方式是：Sys.setenv(TZ="Asia/Kolkata")z <- xts(1:length(seq),seq) 现在，我想用类似的时间戳(只有H:M:S)对数据进行分组，动态地在一个for循环中，然后对每个<

浏览 1提问于2016-03-21得票数 1

回答已采纳

1回答

如何在IGrouping中对组中索引中的单个项进行操作？

、

我在下面简化了groupby代码，我知道每个组最多有两个记录，每个组按字符串中索引2处的值进行分组。我希望迭代IGrouping中的键列表，并将每个组中的一些值组合起来，然后将结果添加到最终列表中，但我对LINQ并不熟悉，因此不知道如何在索引</em

浏览 2提问于2015-07-06得票数 0

回答已采纳

1回答

句子相似性

、

每周我都会得到一组句子(~1000)，每个句子可能是相似的。示例：金属硬线金属硬线硬丝金属我使用余弦相似来查找常见的文档并对它们进行分组。我意识到类似的医生：返回~0.5相似度。返回~0.433 其他具有更多单词的文档返回更高的值。(我在使用来自cosine_similarity的sklear

浏览 0提问于2016-10-03得票数 -1

回答已采纳

1回答

使用列号和行号(整数)复制范围

、、、、

为了抵消用户添加自己的列的事实，我对所有列都进行了索引。我为标题头创建了一个变量，并为这个变量分配了一个整数。因此，列A总是被称为字符串变量ColumnA和整数变量IColumnA。我还得到了一组行数和最后一行的变量LRow。如何使用整数变量选择列范围？例如，

浏览 4提问于2017-08-16得票数 1

2回答

创建组上对的滚动索引

我需要(用R)从包含组的数据集中创建对的滚动索引。38 3 1 5我拥有的数据框架包括变量组和在每个组中，V1指定一个正在运行的索引(该索引可能从1开始，也可能不从1开始)。我想要创

浏览 4提问于2015-05-11得票数 3

回答已采纳

1回答

dplyr，如何根据代码对观察进行分组，计数和创建摘要变量，然后根据组内的名称添加一个新变量。

、、、

我已经对地址进行了地理编码，并计划使用地理代码对它们进行分组，但是，当对它们进行分组时，我希望创建一个新变量，它至少保留一个地址版本(或者多个变量，每个地址在组中以宽格式显示，但我只为每个组提供一个变量，但不知道如何根据组中的一个地址来变异

浏览 3提问于2021-04-07得票数 1

回答已采纳

4回答

综合指数是如何工作的？

、、

我之前在表上创建了复合索引(为您创建的指数)，并假设它们是如何工作的。我只是好奇我的假设是否正确。我假设，当您列出索引的列顺序时，您还指定了如何对索引进行分组。例如，如果您有a、b和c列，并且按照相同的顺序指定索引-- a ASC、b ASC和c ASC --那么生成的索引

浏览 4提问于2009-04-27得票数 85

回答已采纳

1回答

从平面LINQ结果创建分层列表

、、、

希望有人能评论一种更有效的方法:我有一个通用的工作项目列表，表示用户的待办事项列表。目前，只在截止日期前将其排序并显示在Obout Treeview中，并且工作正常。现在，我们希望通过允许用户对他们的待办事项列表进行排序，将主要和次要的“筛选器”(即按到期日，然后按接收日期或类似日期)应用到该treeview，从而使treeview将主排序显示为父类，次要排序显示为子类} { tree.

浏览 6提问于2016-05-05得票数 0

2回答

如何在分组集合上以编程方式在C#中创建排序顺序

、、、

我有这段代码，它接受一个集合，并按字符串字段分组：我现在想循环遍历每个组，但我想以指定的顺序执行foreach (var issueType in groupByIssueType)} OrderBy(r=>r.Name) 或者类

浏览 0提问于2011-06-05得票数 0

回答已采纳

1回答

如何在SSRS中按变量group-by值显示行数？

、、

从本质上讲，我希望每个分组都有单独的行数。我相信我应该使用RowNumber。这似乎已经讨论过了，但我遇到了困难，因为我的groupby不是字符串常量。我的尝试得到了一些类似的东西：如果我将此设置为原样，则SSRS报告不会加载。=RowNumber("NameOfMyDataSet") 我将成功地<em

浏览 1提问于2013-04-23得票数 13

回答已采纳

0回答

索引独立的生存曲线

、

我想在ggplot中绘制两组中每一组的Kaplan-Meier生存估计。要做到这一点，需要为每个组获得单独的生存曲线。survival包中的survfit函数很好地拆分了这两个图，但我不知道如何对单独的图建立索引以对其进行处理。rearrest<-read.table("http://sta

浏览 9提问于2017-12-01得票数 1

回答已采纳

2回答

如何使用data.table做到这一点？

、

我在R中有一个数据表(DatosMex)，并希望对其中名为industry的列进行重新编码。，比如gr_industry，它对一些类别进行分组。例如，我的新变量必须对类别Agricultura,Ganaderia,Pesca,Caza Forestal、Asociaciones、Energia,Petroleo,Gas,Mineria和Gobienro进行分组，并为它们分配代码1。

浏览 0提问于2012-08-10得票数 1

回答已采纳

1回答

创建一个新标记的统一脚本

、、

我有一个从动态 dll中读取多个字符串数组的代码.我正在从数组中的每个字符串中创建GameObjects，我希望将每个字符串数组分组为唯一的组。到目前为止，我已经成功地给出了GameObject特定的标记来对它们进行分组，但是这些the标记是在Unity中预

浏览 2提问于2020-11-02得票数 1

2回答

从post hoc测试中获得整洁的输出

、、、、

Region、State和Loc是每个观察值ID的分组变量，并且对每个观察值var1:var5进行5次测量。对于每个分组变量，我对每个var执行单变量方差分析。当发现显著差异时，我使用multcompView包中的TukeyHSD()函数和multcompLetters()函数在组上生成CLD。由于我想

浏览 36提问于2020-05-28得票数 1

回答已采纳

6回答

转换为浮动包含字符串的列表列表

、、

我有一个包含字符串值的列表列表：['138.313946', '-35.45212'],['138.314603', '-35.450948'], ['138.314038', &

浏览 0提问于2019-05-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何对相似的字符串进行分组，并为R中的每个组创建索引变量？

相关·内容

如何对相似的字符串进行分组，并为R中的每个组创建索引变量？

当没有标准列表时，在python中对公司名称进行聚类

创建主题字段组

如何让一个app在两个不同的设备上显示相同的数据？

将名称包含在字符串变量中的工作表分组

R中的群时间序列动态观测

如何在IGrouping中对组中索引中的单个项进行操作？

句子相似性

使用列号和行号(整数)复制范围

创建组上对的滚动索引

dplyr，如何根据代码对观察进行分组，计数和创建摘要变量，然后根据组内的名称添加一个新变量。

综合指数是如何工作的？

从平面LINQ结果创建分层列表

如何在分组集合上以编程方式在C#中创建排序顺序

如何在SSRS中按变量group-by值显示行数？

索引独立的生存曲线

如何使用data.table做到这一点？

创建一个新标记的统一脚本

从post hoc测试中获得整洁的输出

转换为浮动包含字符串的列表列表

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐