首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >识别同位群

识别同位群
EN

Stack Overflow用户
提问于 2020-05-15 20:37:45
回答 1查看 46关注 0票数 0

我是相对较新的R,所以我很抱歉,如果我的职位是不明确的提前。我有这样一个数据框架:

mydata <- data.frame(Town=c("A“、"B”、"C“、"C")、Industry=c("A”、"B“、"F”、"A“、"C”、"B“、”G“、"B”、"G","T“、"A”、"C“、”F“)

我的真实数据集有5000条观测数据,400个城镇和90个行业。

代码语言:javascript
运行
复制
mydata <- data.frame(Town=c("A","A","A","B","B","B","B","C","C","C", "C","C","C"),
                     Industry=c("A","B","F","A","C","B","G","B","G","F","A","C","F"))

   Town Industry
1     A        A
2     A        B
3     A        F
4     B        A
5     B        C
6     B        B
7     B        G
8     C        B
9     C        G
10    C        T
11    C        A
12    C        C
13    C        F

我想找出在同一地区至少与其他两个产业同时办公的产业组合,50%/超过50%的时间。如果确定了,我会想要独特的行业组合。

例如,如果工业A位于10个城镇,工业B和C位于这10个城镇中的5个,那么它们将被归类为一个集群,由A、B和C组成,最好是以数据帧形式与独特的组合相结合。

我试着做了一段时间,但我得到的最接近的是执行共现矩阵,但没有得到唯一的组合和计算的相关性是不一致的。我的真实数据集有5000个观测数据。

到目前为止我的尝试。

代码语言:javascript
运行
复制
df2 <- crossprod(table(df[1:2]))
diag(df2)<- 0

df3<- melt(df2)
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-15 21:08:00

第10行和第13行有什么区别?这也是一个距离问题,因为在你的例子中只有三个城镇,50%意味着1.5个城镇。假设数据是正确的,那么我们可以这样做:

代码语言:javascript
运行
复制
n <- length(unique(mydata$Town)) # Number of Towns:

m <- as.matrix(n - dist(table(mydata[2:1])>0)^2) #number of cities they share in common

data.frame(as.table(m))[c(lower.tri(m) & m >= (0.5 * n)),]

   Var1 Var2 Freq
2     B    A    3   # B and A share 3 Town
3     C    A    2   # C and A share 2 Towns
4     F    A    2
5     G    A    2
8     C    B    2
9     F    B    2
10    G    B    2
15    G    C    3
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61827941

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档