专栏首页大数据风控R中如何利用余弦算法实现文章的自动摘要

R中如何利用余弦算法实现文章的自动摘要

自动摘要

自动摘要,就是利用计算机自动地从原始文献中提取摘要。 例如百度经验中的经验摘要,简短的描述了该经验的主要解决问题。 自动摘要的算法原理 余弦相似度(Cosine Similarity)

算法步骤:

  1. 获取到需要摘要的文章
  2. 对该文章进行词频统计
  3. 对该文章进行分句 根据中文的标点符号,一般我们采用。,?进行分句
  4. 计算分句与文章之间的余弦相似度

代码实现:

library(tm)
library(tmcn)
library(Rwordseg)

docs <- Corpus(
  DirSource(
    c(
      "SogouC.mini/SampleNamed/C000007", "SogouC.mini/SampleNamed/C000008",
      "SogouC.mini/SampleNamed/C000010", "SogouC.mini/SampleNamed/C000013",
      "SogouC.mini/SampleNamed/C000014", "SogouC.mini/SampleNamed/C000016",
      "SogouC.mini/SampleNamed/C000020", "SogouC.mini/SampleNamed/C000022",
      "SogouC.mini/SampleNamed/C000023", "SogouC.mini/SampleNamed/C000024"
    )
  ),
  readerControl = list(
    language='UTF-8'
  )
)

#使用矩阵的方式计算
cosineDist <- function(x){
  return(x%*%t(x)/(sqrt(rowSums(x^2) %*% t(rowSums(x^2))))) 
}

#字符串分隔函数
strsplits <- function(x, splits, ...) {
  for (split in splits) {
    x <- unlist(strsplit(x, split, ...))
  }
  return(x[nchar(x)>3])
}

mainSegs <- data.frame(
  name=c(NA), 
  seg1=c(NA), 
  seg2=c(NA), 
  seg3=c(NA)
);

for(i in 1:length(docs)) {
  #分句
  segs <- unlist(
    strsplits(
      docs[[i]]$content, 
      splits=c('。', '?')
    )
  );

  doc <- Corpus(VectorSource(c(segs, paste(docs[[i]]$content, collapse = "。"))))
  doc <- tm_map(
    doc, 
    content_transformer(segmentCN), 
    returnType="tm"
  )
  #移除空白
  doc <- tm_map(
    doc, 
    stripWhitespace
  )
  #移除标点
  doc <- tm_map(
    doc, 
    removePunctuation
  )
  doc <- tm_map(
    doc, 
    removeNumbers
  )
  tdm <- DocumentTermMatrix(
    doc, 
    control = list(
      wordLengths= c(1, 4),
      stopwords = stopwordsCN()
    )
  )
  TF <- as.matrix(tdm)

  cosSimilar <- cosineDist(TF)

  resultIndex <- apply(cosSimilar, 2, function(col) {
    return(order(col, decreasing=TRUE)[2:4]);
  })

  mainSegs[i, 1] <- docs[[i]]$meta$id;
  mainSegs[i, 2:4] <- segs[resultIndex[, length(segs)+1]]
}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R聚类算法-(K-Means算法)

    聚类算法,属于无监督学习 K-Means算法 K-Means算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离它最近的质心对应的类,以之作为聚类的标准...

    Erin
  • R文本挖掘-文章关键词提取

    关键词提取(keywords) 词频(Term Frequency) 逆文档频率(Inverse Document Frequency) IDF就是每个词的...

    Erin
  • Python中的结构分析pivot_table

    结构分析 是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。 这个分组主要是指定性分组,定性分组一般看结构,它的重点在于...

    Erin
  • Golang 语言怎么实现访问流量限流?

    为了保护业务系统不会在访问流量过载的情况下出现问题,我们就需要限流。常见的限流算法有:固定时间窗口限流算法,滑动时间窗口限流算法,漏桶限流算法,令牌桶限流算法。...

    frankphper
  • 最爱你的人,会让你不费脑细胞的理解区块链

    区块链是一个近期非常火的概念,随便走进一个写字楼的电梯,都会听到有人谈论区块链,或者炒币: ) 希望通过这篇文章,能让你对区块链的概念有一个整体的认识,在理解概...

    simpleapples
  • 预测 lncRNA 亚细胞定位的网站

    在整个基因转录翻译的过程当中,基因是在细胞核发生转录,然后出核到细胞质当中发生翻译。对 lncRNA 而言,由于lncRNA的功能主要还是通过影响其它基因来实现...

    医学数据库百科
  • 区块链数字资产比特币P2P抵押借贷平台系统开发

    简化繁琐的贷款流程,促进一个全新的区块链资产质押市场。借款人通过其区块链资产在平台贷款,可以满足借款人的资本需求。通过区块链技术,以更为开放、直接、透明的方式从...

    用户2965389
  • 区块链热潮席卷A股 而你还不知道它是啥?

    区块链概念行情火爆,概念股频掀涨停潮,这一场“新年狂欢”背后,究竟是机遇还是炒作?我们还无法得知,不妨先来了解这个神秘的区块链到底是什么。 ? ? 注:本内容来...

    用户1621951
  • 新媒体如何玩转区块链思考

    春节期间几个玩币大佬搞了个大事件,比当年上13套都热闹,各路鬼神纷纷站台,一边神叨叨的说着区块链,手底下干的却是玩币的勾当,竭尽其力的推荐各路一夜暴富的理念,以...

    Leoo Bai
  • 举例说明区块链技术的含义

    区块链是什么,区块链系统,区块链模式,区块链软件,区块链APP 左彬: I ⑧ 8 二 7 ④ 1 肆 7  I ④,区块链商城,区块链平台,区块链有什么用。

    左彬

扫码关注云+社区

领取腾讯云代金券