专栏首页数据化管理大咖说数据挖掘的方法
原创

大咖说数据挖掘的方法

1.1 什么是数据挖掘

数据挖掘就是对存在的数据集进行分析和总结而产出有价值信息的过程。有时数据挖掘也用来泛指一种方法,即数据挖掘是对数据进行处理,并从数据中分析、提炼、总结出有价值的信息的方法。

数据挖掘是大数据时代必然的产物,是对数据进行利用的办法,也是大数据时代最具有挑战性的工作。我们在数据采集、存储和传输领域已经具备了先进的技术,能够采集和存储大量的数据,可是在数据挖掘和应用领域还知之甚少,数据挖掘技术是未来企业重要的技术。

现在的互联网服务企业非常多,中国有BAT之说,包括百度(Baidu)、阿里(Alibaba)和腾讯(Tencent),在电商领域还有京东、苏宁、一号店、唯品会、我买网、亚马逊等,在旅游电商领域有去哪儿、去啊、百度旅游、途牛、穷游等;在快餐外卖领域有糯米、百度外卖、叫饭网、饿了么等;在团购领域有美团、窝窝团等。这些企业一般都具有百万以上的活跃用户,每天产生大量的数据,但是能够对数据进行整合和深度挖掘分析的企业仍然少之又少。包括百度在内,其采集了大量的数据,也开发了大量的数据应用,但相对于其所拥有的数量级,其数据的挖掘和应用仍然是非常少的。

数据本身没有什么商业价值,从数据中挖掘出来的商业洞察和基于该洞察的应用才有价值。随着大数据的来临,互联网行业逐渐发展成熟,并走向稳定,新型企业的创业机会会越来越少,未来互联网企业缺少的不再是创新,而是精细化运营和管理。任何行业或者产业发展都会经历这样一个规律,当行业刚刚兴起的时候,只有少数的人能够看到行业的机会,比如20世纪80年代,马云能够看到互联网平台在中国的机会,到了快速发展的时候,很多的创新衍生出来,投资者追捧,企业并不赢利,或者从来没有赢利,但投资者仍然热捧,这说明行业已经到了巅峰,盛极而衰是社会发展的必然规律。

数据分析方法有价值,但不用也是没有价值的。经过互联网改造的传统行业还会持续地成为社会的主流,当大家把工具当做生意的时候,工具变得非常重要,而工具本身本不产生多大的社会价值,只有在应用的时候才会产生价值。

数据挖掘作为一种数据应用的方法,要在使用过程中不断完善和改进,不断创新,及时跟进大数据时代数据量级的剧增。

1.2 常见的数据挖掘方法有哪些

现在所拥有的数据挖掘的方法不是很多。作为一门专业学科,其丰富程度非常有限。一方面,这是一个新鲜的领域,真正从事这方面研究的专家不多;另外一方面,数据挖掘方面的研究要结合企业的实际数据,这让很多希望从事这方面研究的科学家们缺材少料;第三个方面是,企业在实践中探索出新的方法往往作为自身应用的方法,并没有贡献给全人类,所以数据挖掘方面的知识还需要不断地研究和发展。

现在常用的数据挖掘算法有几十种,已经经过实践的算法并能够查询到相关资料的有上百种。这些算法仍然以数学和统计学的算法为核心,在大数据集上为了追求计算效率,衍生出更多的优化算法。比如2006年IEEE1的ICDM2协会选择了18种经典算法进行了评测,选择出了10种最重要的数据挖掘算法,这些算法基本都是统计学领域的算法或者是在统计学领域进行了优化和改进的算法。

在这些高深的算法外,还有非常直接的数据挖掘的算法,包括分类法、对比法、比率法、地图法、画像法、时间轴法、聚类法、过程拆解法、层级树法等。

1.3 什么是文本挖掘

文本挖掘是从文本数据中抽取有意义或者有价值信息的一种数据处理技术。文本挖掘是最近几年才开始兴起的方法,特别是当社交媒体出现并快速普及之后,为了监测社交媒体上大家的言论所进行的一种数据挖掘方法,是在常规数据挖掘的基础上,以文本中的语意为对象进行的分析。由于计算机本身不能自动识别文本的语义,所以需要把不同的词汇用字典的方式建立索引,并对文本中的关键词进行程度划分,由此来统计在社交媒体上出现的频率、被阅读的频次、被引用和转发的频次,据此来评价该文本对我们研究对象的态度等信息。

文本挖掘一般用于商业竞争情报监测、舆情监测、客户意见提取、搜索引擎等。随着Web2.0开始,以用户生产内容(UGC–UserGeneratedContent)为主要内容生产方式的网站和平台越来越多,文本挖掘越来越成为网络信息采集和分析的手段。

进行文本挖掘的时候,需要将文本或者文件中以自然语言形成的文本借助中间字典转换成计算机能够处理的语义(关键词、短语、语言特征等),然后再对语义词进行解读和统计分析。关键词包括名称识别、动作识别、形容词语义识别以及语言特征的识别,语言特征可以看做语法解读,包括识别主语谓语宾语等语言结构。不同的语言有不同的语法特征,比如中文、日文、韩文、德语、法语等和英文完全不同,一个文本挖掘的算法需要根据语言特征重新修订。

进入大数据时代后,数据格式越来越丰富,包括图片、声音和视频等,目前很多的处理方法也会以数据转换和文本挖掘的方式来做简单分析。现在将声音转换成文字,然后再对文字进行挖掘的技术已经较为成熟,这是未来人机交互的基础。目前对图片的识别和搜索还在发展阶段,简单的文字图片识别OCR1技术相对成熟,但对于图片内的图形内容的识别技术仍然有待开发和完善。

随着数据挖掘、文本挖掘、图像识别技术、声音转换技术等发展,未来对音频、视频等的数据挖掘技术也会出现。目前鉴于计算机的处理能力以及应用效果的普及,仍然处在实验阶段,商业化的普及应用仍然需要时间。现在的数据挖掘技术能够处理的数据范围还仍然停留在数字和文本的阶段,更复杂的数据格式的数据挖掘技术在不远的将来会越来越成熟,并逐步商业化应用,需要企业从事数据分析的相关人员关注技术的最新进展。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 构建数据思维从认知事物的基本方法开始!

    用数据描述事物时需要有个方法对事物进行记录,并能够回溯回去,还原事物,且能够结构化相关的数据,以方便我们对数据进行处理。现在经常采用的方法是要素+属性+方法的模...

    明悦数据
  • 04企业的神经系统-数据系统(一)

    如果把现金流当作企业的血液,数据系统完全可以称得上是企业这个有机体的神经系统,每一个数据都是企业的神经元,这些数据记录的是资源以及资源活动的信息,通过将数据传输...

    明悦数据
  • 企业大数据价值你只发掘了1%!

    管理学上对企业定义为“以赢利为目的的组织”—这句话会在本书中多次重复以示强调—意思是通过充分利用公司的内外部资源,将资源转换,实现增值,从而赢利。就像一个黑匣子...

    明悦数据
  • 每周学点大数据 | No.53数据挖掘概述与分类

    NO.53 数据挖掘概述 Mr. 王:今天我们来讨论一个新的话题,你听说过数据挖掘吗? 小可:这个名字倒是挺有意思的啊,不过数据是一种抽象的、虚拟的概念,要怎么...

    灯塔大数据
  • 从概念到应用,终于有人把数据挖掘讲明白了

    导读:数据采集和存储技术的迅速发展,加之数据生成与传播的便捷性,致使数据爆炸性增长,最终形成了当前的大数据时代。围绕这些数据集进行可行的深入分析,对几乎所有社会...

    用户2769421
  • 大数据时代下数据挖掘技术的应用

    原文链接:https://mp.weixin.qq.com/s/bxSEO4gKQ-BbDWT1BNnwyw

    月牙寂道长
  • 【观点】数据挖掘未来研究方向及热点

    1、 数据挖掘未来研究方向 当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系...

    机器学习AI算法工程
  • 深度|DT时代的核心竞争力---数据分析与挖掘

    数据分析与挖掘,指的是通过对大量的数据进行观察与分析。发掘其中的未知的,潜在的、对决策有价值的关系、模式和趋势,并利用这些规则建立决策模型、提供预测性支持的方...

    灯塔大数据
  • 【数据分析】互联网和金融,在数据挖掘上究竟存在什么区别?

    一、数据挖掘的层次 一直想整理下对数据挖掘不同层次的理解,这也是这两年多的时间里面,和很多金融领域、互联网做数据相关工作的小伙伴,聊天交流的一些整理和归纳。大概...

    小莹莹
  • 2017年大数据领域薪资有多高?

    IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 互联网在经历前几年的繁荣之后,现在开始进入寒冬,资本家不再像以前那样大胆地投资,纷纷攥紧自己...

    IT派

扫码关注云+社区

领取腾讯云代金券