前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >合肥工业大学吴信东:大数据Processing Framework多层架构

合肥工业大学吴信东:大数据Processing Framework多层架构

作者头像
用户1737318
发布2018-06-05 14:20:35
7800
发布2018-06-05 14:20:35
举报

为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前最新热点和发展趋势的话题进行交流与探讨,并针对“机器学习与模式识别”“大数据的机遇与挑战”“人工智能与认知科学”“智能机器人的未来”四个主题进行专题研讨,努力打造国内人工智能前沿技术和学术交流的平台。

合肥工业大学教授、国家“千人计划”特聘专家 吴信东

合肥工业大学教授、国家“千人计划”特聘专家吴信东的演讲主题是“大数据知识挖掘”。在他看来,大数据已经成为全球火爆的技术话题,但究竟什么样的规模叫做大数据?从数据库、统计学、数学等方面来看都有不同定义和解读。但对其核心技术的需求是一样的,数据关联和分析。2014年1月发表了《HACE Theorem》论文之后,IEEE XPLORE每月下载量都非常高。其中,HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写,核心是通过数据特征找到数据关联。在合肥工大看来,大数据Processing Framework有多层:数据计算平台、专家系统、信息个性化保护、数据挖掘。

以下为速记整理:


吴信东:李院士和沈向洋分享了两个非常好的主题,脑认知和计算机视觉与深度学习。我在后面也挑一个比较时髦的话题叫大数据挖掘。现在给大家介绍一下我以前研究的几个领域,最初是做数据挖掘的,而后是专家系统技术。1988年在北京工业电子出版社出了一本书叫《专家系统技术》,2002年出了《专家系统设计》,大学博士论文叫做“数据挖掘”,正好赶上数据挖掘的好时代。1993年在爱丁堡大学博士毕业之后,参加了全球非常有名的技术会议,一直在研究大数据挖掘技术。

我报告分成几个部分,第一个大数据时代到来,现在不是全国人民,是全世界人民都在讨论大数据。大数据很火,现在大家都知道,不光是做计算机的,美国政府已经制定了大数据行动计划,所以在2013年12月份美国ICDM会上,讨论大数据的定义和技术要点。第一个观点是华人学者提出的一个问题,大数据多大叫大?如果非常大就不算大,因为1975年开始VRDB(Very Large Data Bases)的数据会议,就已提出大数据量,这是全球最好的数据库会议。第二个观点是英国专家,数据库的多少是跟数据库成反比,意义就是说数据越大,跟我们每天相关越不紧密。反而是这个小数据库,跟我们的关系更密切,跟社会发生影响更大。第三个观点是无数O相加是O还是会是1。从数学来看是0,但如果其中发生化学等变化,是有成为1的可能性。还有在ICDM和KKD会议上,都有不同解读。

大数据的说法由来已久,从1883年统计学就已出现,后来还有商务数据、智能数据、大数据。但无论怎么称呼,做的事情都是相同的,是在数据中找到数据模型,挖掘规律。大数据走到现在,更多搜索已经不再是看名词,而是数据挖掘需求,比如数据之间的关联和规律,新工具和技术,数据科学、数据挖掘等。核心就是要提供给人们和社会提供一个技术的佐证。比如奥巴马和希拉里两个小时辩论有一千万条讨论,信息都比较短。但要看到哪些人最开始反对一个候选人,通过别人的讨论改变了他的观点这样的搜索,就需要大数据分析。

所以,我们2014年1月发表了《HACE Theorem》论文。论文发表后,IEEE XPLORE每月下载量都非常高,18个月来已经被引用128次,每个月在IEEE下载量全球第一。其中,HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写,核心是通过数据特征找到数据关联。

大数据分析实际上做两件事儿,找出事物对象之间的复杂性,复杂性不是一对一,是多对多,关键问题是这个关系是在变的,比如今天我在台上作报告,你在台下,有可能明年你可能在台上做报告,我在台下。数据两个特征,数据挖掘和数据分析这是两个对象的研究问题。比如小学盲人摸象,万维网上的99的%对99%的人来讲毫无信息,你摸到的看到的你受关注的可能只是1%,每个人摸象的体会不一样。

在国外有一个数字模型是四维模型,四维以后还有五维模型,叫做不同的侧面,叫Relevant Realtime。就是商业模式是什么,为什么要做大数据,企业是怎么做的。这个模型的挖掘方法已经在医疗上有所应用。首先是个性化服务、个性化预测,判定个人健康,然后把病人的疾病诊治和防治过程放入病例过程。比如糖尿病病人,到社区媒体中认识,讨论亲身体会,然后再把亲身体会拿回来作为经验。大数据在病人和医生中间采取五维。

在我们看来,大数据Processing Framework有多层:数据计算平台、专家系统、信息个性化保护、数据挖掘。

我们讲大数据分析实际有多层,数据形态,你要讲大数据必须要把数据存储,数据计算;专家系统,做数据分析;形成个性化的信息保护;外面一层就是数据挖掘,数据库变化。今年9月份我们会刊登出来。这是我们自己定义的大数据一套模型。

后面有两点细致工作,一个是数据流数据发生变化,另外一个数据描述发生变化,数据特征和数据变量在发生变化。我们做了两个系统:一个叫个性化推荐系统。我们在合肥建立一个网站,国外找到五个英文网站,国内找到五个中文网站,爬虫个性化服务,就找你早上上班的时候信息发布。而在过滤广告后,在过滤过的新闻和网站我们建一个知识本体,形成我们有个三层结构的知识库,谁需要可以安装到部门,可以安装到政府部门,可以安装到学校,有几个小团队帮你建立知识本体,然后再针对不同的用户,我们建个体建模。

第二个是特征变化,刚刚讲了同一天给你1到20个变量,到了第二天20到40个变量,变量发生变化了,这个时候就有中文大辞典,英文大辞典,网络上面网民自己创造,网络上面出来新的词,做文本处理可能涉及到不仅仅处理,然后把新词加到辞典里面新词就变成变量,这个变量怎么做,所以我们建立一个机制,保留你所需要的。

这里有很多问题。比如给1000个最好的变量,和1000个最坏的变量比起来,实验结论不同。改变变量出现次数,就会改变精度。改变精度,所有的模型都会影响。我们数据相对比较稳定,一直是选择最好的变量,所以一个是做精度,一个是做时间,一个是考虑变量的过程和变量秩序。这里举了美国航空图像上,三幅火星不同的位置的图片的例子。

HACE在大数据基础上,从异构数据进行,然后再做数据治理能力。大数据要做复杂和关联的关系。我们现在做了几个相关项目,如美国国家基金的项目,国家863项目,NSFC海外异构模型化的环境模式处理,(和北理一起)社交网络影响与交互的研究,教育部多语音变量存储等。

更详细的会议日程和相关信息请随时关注大会官网(持续更新中):http://ccai2015.csdn.net/。

【公告】更多人工智能技术分享与交流,请加入CSDN 人工智能技术交流QQ群,群号:465538150。我们将邀请一线专家进行分享!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档