【观点】数据挖掘未来研究方向及热点

1、 数据挖掘未来研究方向 当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。预计在本世纪,DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面: 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现;

知识的维护更新。

但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。 只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。

2 、数据挖掘热点

就目前来看,将来的几个热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textualmining)。下面就这几个方面加以简单介绍。

2.1 网站的数据挖掘(Web site data mining)

需求

随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

电子商务网站数据挖掘

在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。 就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。

2.2 生物信息或基因的数据挖掘

生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。

2.3 文本的数据挖掘(Textualmining)

人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。 随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

如何将云计算指标转化为衡量敏捷性

云计算是一个不断发展的科学,人们需要理解云计算的确切商业利益。几年前,这个收益大部分被认为是“资本支出与运营成本”,并转向按需消费模式,从而避免了硬件和软件的资...

3016
来自专栏PPV课数据科学社区

解析 :跻身数据科学领域的五条职业规划道路

原文链接:http://www.kdnuggets.com/2017/02/5-career-paths-data-science-big-data-expla...

1233
来自专栏CDA数据分析师

收藏 ▏用户群体画像功能深度解析

作者 于晓松 本文为原作者原创作品,转载需授权 所有伟大的产品,都离不开用户的追随与期待。 用户群体画像是产品用户增长的利器之一——它能够帮您探究产品指标数字...

2278
来自专栏IT大咖说

道法术器— DevOps 端到端部署流水线 V2.0

摘要 DevOps独立顾问、DevOps时代联合创始人张乐为我们带来DevOps 道法术器及端到端部署流水线V2.0的分享。 ? VUCA新常态 ? 在移动互联...

3435
来自专栏PPV课数据科学社区

《游戏数据分析的艺术》之游戏数据分析的流程(上)

点击上方 “蓝色字” 可关注我们! 作者:TalkingData高级咨询总监 - 于洋力作《游戏数据分析的艺术》第一章第一节的前三点。来源:TalkingDat...

4447
来自专栏华章科技

2017年,为何过半的大数据项目不成功?

随着企业努力在数字时代实现数据驱动,我们的生态系统正在发生重大变化。不光是企业应用程序生成的海量数据日增,在企业外部广泛的用户和难以数计连接的各种“事物”所产生...

803
来自专栏CSDN技术头条

大数据时代下,数据感知在数据质量管理系统中的应用

关于数据质量管理,可能与大部分人没有太大的关系。虽然,市面上有很多的公司在进行数据的挖掘、分析方面业务的工作,但是关于数据质量管理方面的公司真的是屈指可数。 由...

2345
来自专栏互联网数据官iCDO

人工智能将如何革新数字营销领域?

当数字营销人员想到“人工智能”,他们会马上联想到“RankBrain”算法。 2015年,Google推出了RankBrain,一种能自动回复用户的机器学习系统...

3788
来自专栏IT大咖说

微软:如何搭上人工智能这班车

1723
来自专栏大数据和云计算技术

数据治理的基本概念

刘同学的第四篇,坚持就是胜利,太棒了。 在 2009年,《大数据资产:聪明的企业怎样致胜于数据治理》一书中提到,如果基本数据不可靠,大多数企业的大数据计划或者失...

3425

扫码关注云+社区