R中如何利用余弦算法实现文章的自动摘要

Erin

发布于 2018-01-09 11:02:08

1.1K0

发布于 2018-01-09 11:02:08

文章被收录于专栏：大数据风控

自动摘要

自动摘要，就是利用计算机自动地从原始文献中提取摘要。例如百度经验中的经验摘要，简短的描述了该经验的主要解决问题。自动摘要的算法原理余弦相似度（Cosine Similarity）

算法步骤：

获取到需要摘要的文章
对该文章进行词频统计
对该文章进行分句根据中文的标点符号，一般我们采用。，？进行分句
计算分句与文章之间的余弦相似度

代码实现：

library(tm)
library(tmcn)
library(Rwordseg)

docs <- Corpus(
  DirSource(
    c(
      "SogouC.mini/SampleNamed/C000007", "SogouC.mini/SampleNamed/C000008",
      "SogouC.mini/SampleNamed/C000010", "SogouC.mini/SampleNamed/C000013",
      "SogouC.mini/SampleNamed/C000014", "SogouC.mini/SampleNamed/C000016",
      "SogouC.mini/SampleNamed/C000020", "SogouC.mini/SampleNamed/C000022",
      "SogouC.mini/SampleNamed/C000023", "SogouC.mini/SampleNamed/C000024"
    )
  ),
  readerControl = list(
    language='UTF-8'
  )
)

#使用矩阵的方式计算
cosineDist <- function(x){
  return(x%*%t(x)/(sqrt(rowSums(x^2) %*% t(rowSums(x^2))))) 
}

#字符串分隔函数
strsplits <- function(x, splits, ...) {
  for (split in splits) {
    x <- unlist(strsplit(x, split, ...))
  }
  return(x[nchar(x)>3])
}

mainSegs <- data.frame(
  name=c(NA), 
  seg1=c(NA), 
  seg2=c(NA), 
  seg3=c(NA)
);

for(i in 1:length(docs)) {
  #分句
  segs <- unlist(
    strsplits(
      docs[[i]]$content, 
      splits=c('。', '？')
    )
  );

  doc <- Corpus(VectorSource(c(segs, paste(docs[[i]]$content, collapse = "。"))))
  doc <- tm_map(
    doc, 
    content_transformer(segmentCN), 
    returnType="tm"
  )
  #移除空白
  doc <- tm_map(
    doc, 
    stripWhitespace
  )
  #移除标点
  doc <- tm_map(
    doc, 
    removePunctuation
  )
  doc <- tm_map(
    doc, 
    removeNumbers
  )
  tdm <- DocumentTermMatrix(
    doc, 
    control = list(
      wordLengths= c(1, 4),
      stopwords = stopwordsCN()
    )
  )
  TF <- as.matrix(tdm)

  cosSimilar <- cosineDist(TF)

  resultIndex <- apply(cosSimilar, 2, function(col) {
    return(order(col, decreasing=TRUE)[2:4]);
  })

  mainSegs[i, 1] <- docs[[i]]$meta$id;
  mainSegs[i, 2:4] <- segs[resultIndex[, length(segs)+1]]
}

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017年07月24日，如有侵权请联系 cloudcommunity@tencent.com 删除

r 语言

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

r 语言

登录后参与评论

0 条评论

热度

R中如何利用余弦算法实现文章的自动摘要

R中如何利用余弦算法实现文章的自动摘要

自动摘要

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐