合肥工业大学吴信东:大数据Processing Framework多层架构

为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前最新热点和发展趋势的话题进行交流与探讨,并针对“机器学习与模式识别”“大数据的机遇与挑战”“人工智能与认知科学”“智能机器人的未来”四个主题进行专题研讨,努力打造国内人工智能前沿技术和学术交流的平台。

合肥工业大学教授、国家“千人计划”特聘专家 吴信东

合肥工业大学教授、国家“千人计划”特聘专家吴信东的演讲主题是“大数据知识挖掘”。在他看来,大数据已经成为全球火爆的技术话题,但究竟什么样的规模叫做大数据?从数据库、统计学、数学等方面来看都有不同定义和解读。但对其核心技术的需求是一样的,数据关联和分析。2014年1月发表了《HACE Theorem》论文之后,IEEE XPLORE每月下载量都非常高。其中,HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写,核心是通过数据特征找到数据关联。在合肥工大看来,大数据Processing Framework有多层:数据计算平台、专家系统、信息个性化保护、数据挖掘。

以下为速记整理:


吴信东:李院士和沈向洋分享了两个非常好的主题,脑认知和计算机视觉与深度学习。我在后面也挑一个比较时髦的话题叫大数据挖掘。现在给大家介绍一下我以前研究的几个领域,最初是做数据挖掘的,而后是专家系统技术。1988年在北京工业电子出版社出了一本书叫《专家系统技术》,2002年出了《专家系统设计》,大学博士论文叫做“数据挖掘”,正好赶上数据挖掘的好时代。1993年在爱丁堡大学博士毕业之后,参加了全球非常有名的技术会议,一直在研究大数据挖掘技术。

我报告分成几个部分,第一个大数据时代到来,现在不是全国人民,是全世界人民都在讨论大数据。大数据很火,现在大家都知道,不光是做计算机的,美国政府已经制定了大数据行动计划,所以在2013年12月份美国ICDM会上,讨论大数据的定义和技术要点。第一个观点是华人学者提出的一个问题,大数据多大叫大?如果非常大就不算大,因为1975年开始VRDB(Very Large Data Bases)的数据会议,就已提出大数据量,这是全球最好的数据库会议。第二个观点是英国专家,数据库的多少是跟数据库成反比,意义就是说数据越大,跟我们每天相关越不紧密。反而是这个小数据库,跟我们的关系更密切,跟社会发生影响更大。第三个观点是无数O相加是O还是会是1。从数学来看是0,但如果其中发生化学等变化,是有成为1的可能性。还有在ICDM和KKD会议上,都有不同解读。

大数据的说法由来已久,从1883年统计学就已出现,后来还有商务数据、智能数据、大数据。但无论怎么称呼,做的事情都是相同的,是在数据中找到数据模型,挖掘规律。大数据走到现在,更多搜索已经不再是看名词,而是数据挖掘需求,比如数据之间的关联和规律,新工具和技术,数据科学、数据挖掘等。核心就是要提供给人们和社会提供一个技术的佐证。比如奥巴马和希拉里两个小时辩论有一千万条讨论,信息都比较短。但要看到哪些人最开始反对一个候选人,通过别人的讨论改变了他的观点这样的搜索,就需要大数据分析。

所以,我们2014年1月发表了《HACE Theorem》论文。论文发表后,IEEE XPLORE每月下载量都非常高,18个月来已经被引用128次,每个月在IEEE下载量全球第一。其中,HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写,核心是通过数据特征找到数据关联。

大数据分析实际上做两件事儿,找出事物对象之间的复杂性,复杂性不是一对一,是多对多,关键问题是这个关系是在变的,比如今天我在台上作报告,你在台下,有可能明年你可能在台上做报告,我在台下。数据两个特征,数据挖掘和数据分析这是两个对象的研究问题。比如小学盲人摸象,万维网上的99的%对99%的人来讲毫无信息,你摸到的看到的你受关注的可能只是1%,每个人摸象的体会不一样。

在国外有一个数字模型是四维模型,四维以后还有五维模型,叫做不同的侧面,叫Relevant Realtime。就是商业模式是什么,为什么要做大数据,企业是怎么做的。这个模型的挖掘方法已经在医疗上有所应用。首先是个性化服务、个性化预测,判定个人健康,然后把病人的疾病诊治和防治过程放入病例过程。比如糖尿病病人,到社区媒体中认识,讨论亲身体会,然后再把亲身体会拿回来作为经验。大数据在病人和医生中间采取五维。

在我们看来,大数据Processing Framework有多层:数据计算平台、专家系统、信息个性化保护、数据挖掘。

我们讲大数据分析实际有多层,数据形态,你要讲大数据必须要把数据存储,数据计算;专家系统,做数据分析;形成个性化的信息保护;外面一层就是数据挖掘,数据库变化。今年9月份我们会刊登出来。这是我们自己定义的大数据一套模型。

后面有两点细致工作,一个是数据流数据发生变化,另外一个数据描述发生变化,数据特征和数据变量在发生变化。我们做了两个系统:一个叫个性化推荐系统。我们在合肥建立一个网站,国外找到五个英文网站,国内找到五个中文网站,爬虫个性化服务,就找你早上上班的时候信息发布。而在过滤广告后,在过滤过的新闻和网站我们建一个知识本体,形成我们有个三层结构的知识库,谁需要可以安装到部门,可以安装到政府部门,可以安装到学校,有几个小团队帮你建立知识本体,然后再针对不同的用户,我们建个体建模。

第二个是特征变化,刚刚讲了同一天给你1到20个变量,到了第二天20到40个变量,变量发生变化了,这个时候就有中文大辞典,英文大辞典,网络上面网民自己创造,网络上面出来新的词,做文本处理可能涉及到不仅仅处理,然后把新词加到辞典里面新词就变成变量,这个变量怎么做,所以我们建立一个机制,保留你所需要的。

这里有很多问题。比如给1000个最好的变量,和1000个最坏的变量比起来,实验结论不同。改变变量出现次数,就会改变精度。改变精度,所有的模型都会影响。我们数据相对比较稳定,一直是选择最好的变量,所以一个是做精度,一个是做时间,一个是考虑变量的过程和变量秩序。这里举了美国航空图像上,三幅火星不同的位置的图片的例子。

HACE在大数据基础上,从异构数据进行,然后再做数据治理能力。大数据要做复杂和关联的关系。我们现在做了几个相关项目,如美国国家基金的项目,国家863项目,NSFC海外异构模型化的环境模式处理,(和北理一起)社交网络影响与交互的研究,教育部多语音变量存储等。

更详细的会议日程和相关信息请随时关注大会官网(持续更新中):http://ccai2015.csdn.net/。

【公告】更多人工智能技术分享与交流,请加入CSDN 人工智能技术交流QQ群,群号:465538150。我们将邀请一线专家进行分享!

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

吴喜之:数据分析和数据挖掘是最大的求职法宝

本文是中国人民大学教授吴喜之在“2015中国数据分析师行业峰会(CDA•Summit)”上的演讲全文,演讲的主题是“如何成为一名数据科学家”。

11530
来自专栏PPV课数据科学社区

【职业】关于数据科学家与数据科学最全面深入的学习阶梯总结及就业指导

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 “数据科学”...

28630
来自专栏数据科学与人工智能

【数据科学家】如何成为一名数据科学家?

一、数据科学家的起源 “数据科学”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用来代替”计算机科学”(丹...

25560
来自专栏java一日一条

我是如何拿到硅谷Offer的:告诉你算法面试的秘密

原视频地址:www.youtube.com/watch?v=ub1Zwz_nivU

29910
来自专栏量子位

Facebook的AI意外发明了自己的语言,到底这是怎么回事?

李杉 编译整理 量子位 报道 | 公众号 QbitAI Facebook人工智能研究实验室里,最近出现了一些神奇的对话。比如说: Bob: i can i i ...

36170
来自专栏大数据文摘

分析3000份技术面试数据:这几大指标比你毕业于哪所学校更要紧

19530
来自专栏大数据挖掘DT机器学习

【经验】如何发现销售报告中有错误的数据

你是否有这种经历:开会的时候,一屋子人正在热火朝天的讨论着一项计划,突然听见有人大叫一声“不对,这个数字是错误的”!大家一看果然有个数字是有问题的。于是有人开...

36880
来自专栏人工智能头条

迈克尔 · 乔丹:我讨厌将机器学习称为AI

16930
来自专栏CDA数据分析师

从拉勾网爬的招聘数据 解析中国数据挖掘人才能挣多少钱?

缘起是因为数据挖掘入行不久,一直上拉勾网看各种公司的招聘JD,人工看一方面是时间很消耗,更严重的是抓不住重点,最近刚好入手python爬虫,试图简化这部分工作。...

19780
来自专栏技术翻译

给想要学习数据科学的人的7个资源

数据科学是通过与计算机,数学,人员和企业合作获得的多种技能和经验的自然结果。有些人会从多年的多次经历中自然地发展出这些技能......但是,如果有捷径呢?

17620

扫码关注云+社区

领取腾讯云代金券