【观点】数据挖掘未来研究方向及热点

1、 数据挖掘未来研究方向 当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。预计在本世纪,DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面: 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现;

知识的维护更新。

但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。 只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。

2 、数据挖掘热点

就目前来看,将来的几个热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textualmining)。下面就这几个方面加以简单介绍。

2.1 网站的数据挖掘(Web site data mining)

需求

随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

电子商务网站数据挖掘

在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。 就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。

2.2 生物信息或基因的数据挖掘

生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。

2.3 文本的数据挖掘(Textualmining)

人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。 随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

黑箱 | 21世纪一大难题:哪一种算法值得信任?

2016年10月18日, 世界人工智能大会技术论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:...

41010
来自专栏BestSDK

Dolphin.ai免费开放SDK,简单三步拥有一套完整语义识别系统

语言作为一种信息交换的媒介,当人们在理所当然地在日常生活中使用它时,并不会觉得这有什么神奇,但当人们尝试与机器沟通时便能轻而易举地感受到这项技能的“高级”之处。...

2635
来自专栏智能计算时代

人工智能和区块链:结合这两大趋势的三大好处。

在此之前,我已经写了关于将区块链与物联网(物联网)整合的现实和潜力。现在我将研究如何加密,分布式的ledgers可以为另一个前沿技术开发新领域:人工智能(AI)...

2985
来自专栏镁客网

ARM:让Mali带来更极致的移动VR体验

622
来自专栏PPV课数据科学社区

【机器学习】Azure机器学习利用无处不在的数据成就生意和生活

利用数据,企业可以预测出潜在的趋势,比如员工离职和办公室能源需求。利用数据,健身房能找到与客户续约的最佳时间点。利用数据,鞋商可以决定哪种产品需...

33911
来自专栏人工智能快报

科学家将为机器人装配人工智能视觉技术

《每日科学》网刊登了来自英国金斯顿大学的文章,称科学家将为机器人装配人工智能视觉技术。 英国金斯顿大学(Kingston University)的专家将探讨如何...

2648
来自专栏大数据文摘

【御数之旅-1】去米国帝都,逛数据世界,约么?

1866
来自专栏大数据文摘

重磅:人工智能产业深度研究报告

35610
来自专栏奇点大数据

大数据的误导

大数据火了这么多年了,还是有不少朋友会跟我讨论,“你说大数据多大算大?” 有这样困惑的朋友可能还不少,而且大多集中在刚刚入行的朋友里。这就是“大数据”一词天然...

2505
来自专栏顶级程序员

关于数据分析那些事,看这一文章就够了

目录: 1什么是数据分析; 2数据分析职业介绍; 3数据分析生涯规划; 4数据分析薪酬情况; 5数据分析基本素质; ---- 一:那到底什么是数据分析呢? 数...

2828

扫描关注云+社区