文本挖掘 – Text mining

文章目录

网络上存在大量的数字化文本,通过文本挖掘我们可以获得很多有价值的信息。 本文将告诉大家什么是文本挖掘,以及他的处理步骤和常用的处理方法。

什么是文本挖掘?

每到春节期间,买火车票和机票离开一线城市的人暴增——这是数据

再匹配这些人的身份证信息,发现这些人都是从一线城市回到自己的老家——这是信息

回老家跟家人团聚,一起过春节是中国的习俗——这是知识

上面的例子是显而易见的,但是在实际业务中,有很多不是那么显而易见的信息,比如:

  • 每周末流量会有规律性的上升或者下降,这是为什么?
  • 国庆长假,使用 iPad 购物比例比平时要高,这时为什么?
  • ……

而文本挖掘的意义就是从数据中寻找有价值的信息,来发现或者解决一些实际问题。

文本挖掘的5个步骤

文本挖掘大致分为以下5个重要的步骤。

文本挖掘的5个步骤:

  1. 数据收集
  2. 文本预处理
  3. 数据挖掘和可视化
  4. 搭建模型
  5. 模型评估

7种文本挖掘的方法

关键词提取:对长文本的内容进行分析,输出能够反映文本关键信息的关键词。

文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。

聚类:聚类是未标注文本中获取隐藏数据结构的技术,常见的有 K均值聚类和层次聚类。更多见 无监督学习

文本分类:文本分类使用监督学习的方法,以对未知数据的分类进行预测的机器学习方法。

文本主题模型 LDA:LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。

观点抽取:对文本(主要针对评论)进行分析,抽取出核心观点,并判断极性(正负面),主要用于电商、美食、酒店、汽车等评论进行分析。

情感分析:对文本进行情感倾向判断,将文本情感分为正向、负向、中性。用于口碑分析、话题监控、舆情分析。

维基百科版本

文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。高质量信息通常是通过统计模式学习等手段设计模式和趋势而得出的。文本挖掘通常涉及构造输入文本的过程(通常解析,添加一些派生的语言特征和删除其他特征,然后插入到数据库中),在结构化数据中导出模式,最后评估和解释输出。文本挖掘中的“高质量”通常是指相关性,新颖性和兴趣的某种组合。典型的文本挖掘任务包括文本分类,文本聚类,概念/实体提取,粒度分类法的生成,情感分析,文档摘要和实体关系建模(即,命名实体之间的学习关系)。

文本分析涉及信息检索,词汇分析以研究词频分布,模式识别,标记 / 注释,信息提取,数据挖掘技术,包括链接和关联分析,可视化和预测分析。最重要的目标是通过应用自然语言处理(NLP)和分析方法将文本转换为数据进行分析。 典型的应用是扫描以自然语言编写的一组文档,并为文档集建模以用于预测分类目的,或者用提取的信息填充数据库或搜索索引。

查看详情

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学习向量量化 – Learning vector quantization | LVQ

    K邻近算法的缺点是你需要坚持整个训练数据集。学习向量量化算法(或简称LVQ)是一种人工神经网络算法,允许您选择要挂起的训练实例数量,并准确了解这些实例应该是什么...

    easyAI
  • 深度学习 – Deep learning | DL

    目前表现最好的一些应用大部分都是深度学习,正是因为深度学习的突出表现,引发了人工智能的第三次浪潮。详情可以看《人工智能的发展史——3次 AI 浪潮》

    easyAI
  • 随机森林 – Random forest

    随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。如果用图来表示他们之间的关系如下:

    easyAI
  • 浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

    【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting...

    Amusi
  • 【NLP保姆级教程】手把手带你RCNN文本分类(附代码)

    之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?

    kaiyuan
  • 锚文本具体有那些作用?

    很多人都知道锚文本,但是很多人都不确切锚文本究竟改看看,一般做锚文本分为车站内做锚文本和站外锚文本,锚文本只不过是链接的一种方式,那么明确锚文本有那些作用呢?上...

    申霖
  • 海量短文本场景下的去重算法

    在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担...

    腾讯QQ大数据
  • <i>标签

    Html5知典
  • 德企开发出基于人工智能的新型文本分析技术

    新闻门户网站和社会媒体都含有丰富的信息资源,例如对股票市场趋势的预测信息。如今,很多服务提供商允许通过向其搜索引擎输入描述性关键字来搜索大量的文本集。然而关键词...

    人工智能快报
  • CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割

    选自arXiv 作者:Pengyuan Lyu等 机器之心编译 参与:Nurhachu Null、李泽南 在计算机视觉的应用场景里,对图像中的文本进行准确识别是...

    机器之心

扫码关注云+社区

领取腾讯云代金券