嘉宾介绍:
李永,大数据厂商联盟理事长,20多年从事数据分析实践、10多年电信公司管理、10多年数据仓库BI经验;首批受聘广东省电子政务大数据专家;长期游历MIT、Stanford、CMU从事大数据技术和应用研究;联盟国内外众多大数据产品厂商,联谊各行业CIO,推动大数据在各个行业的应用落地。
以下为分享实景全文:
李永:
各位晚上好!非常感谢联盟及新河秘书长邀请大数据厂商联盟专题与各位专家汇报交流《大数据应用实施方案》的一些实践案例。因为是一些具体的项目方案,可能会提到一些产品以阐述解决方案,不免会有不周全或偏颇之处,请各位专家多多批评指正交流。
我想从
1、《高频大数据实时动态分析和执行》开始,分别汇报交流
2、《大数据抽取整合解决方案》---怎样把企业相关的网站数据转化成您自己可分析的数据库。
3、《大数据存储及NOSQL优化解决方案》—传统应用系统数据库和平台的优化,怎样升级改造传统应用和数据中心速度性能
4、《海量数据超高查询解决方案》—企业海量数据信息的云搜索查询
5、《Hadoop优化与大数据可视化分析解决方案》---基于WIFI及位置数据的精准营销分析
过去数据分析更多的基于应用系统做历史交易数据的数据仓库BI分析。现在我们看看一个场景,如果您的银行卡在异地非正常发生了一笔大额消费,我们都知道将发生什么。
类似这种偶发(对个人)的高频(对银行或系统)事件数据,怎样与hadoop上探索性数据分析融合起来,实时动态分析并执行呢?
偶发的各类点击、情感、感应器、机器产生的高频数据,加载到DW和hadoop上,通过DW和hadoop上探索性分析,回写到OLTP,融合这三种数据进行实时动态互动的分析,使得形成闭环大数据的交互。
如果在原有业务系统或OLTP上部署类似VoltDB这样的高频内存数据库,并融合DW和Hadoop探索性分析,我们看看面对偶发事件时,是否可以做的更多!
我们可以看看以下几个类似的几个场景。
同样的类似偶发高频事件的分析处理在日常生活中非常之多。
这四个场景案例,充分融合了静态的历史交易数据+WEB数据(点击数据)+实时动态的偶发高频数据。
怎样把偶发(频发)事件数据+留存的历史交易数据融合交互互动进行实时动态分析???
我们知道:可能有80%以上的数据我们都没有得到采集抽取存储和分析。
下面,我们从数据的抽取+整合+分析+可视化等四个方面,看看怎样部署高频大数据实时动态分析。怎样把与一个单位相关的web数据进行抽取整合,转变成您可以分析的数据库呢?怎样把历史数据与web数据融合分析呢?
我们通常用手工+爬虫+全文抽取的方式来获取web数据信息。
把单位内部数据与之相关的WEB数据融合。
把网上微博、吐槽、评论数据全文抽取倒入到自己可分析的数据库。
我们看到采用爬虫方式与全文抽取的方式的差异,采用全文抽取方式,通过机器学习可以监控抽取高达50万个网站,扫描间隔只要6分钟,信息的抽取和分析处理的有效率高达90%以上,并且可以进行语意分析。
在电子政务情报舆情分析、竞争商情价格、信息收集、监控预警等等应用场景有着更广泛的应用。
可能更侧重实际行业实际应用例子多些
下面再介绍一个手机厂商动态定价手机投放价格的案例,某天发现新浪上有一篇关于某手机的报道,通过监控发现它的价格在淘宝上发生的变化,在网站上抓取几乎与之相关类款手机价格后,进行实时再定价,不到一天时间,该款手机价格销量增加了20%之多。利润增加了25%之多。
下面,我们来看看怎样把历史数据+web数据+实时动态数据融合进行分析。
这是怎样把各类结构化+非结构化+半结构化数据抽取整合可视化分析的架构图。
把各类数据抽取整合加载到hadoop上,它比在pig和hive上的速度和效率高3-24倍。
第三个问题,我们来看看怎样把各类抽取来的数据怎样进行存储和运算?
过去我们应用系统都使用传统关系型数据库,而如果面对几十万甚至百万TPS偶发高频数据,i/o吞吐量非常大的场景下,怎么办呢?
把偶发高频数据加载到DW、特别是hadoop探索分析相融合分析,将是基于ETL+DW+OLAP的方式所不能比拟的。
我们联盟合作推荐的几种数据库如文件数据库MongoDB、图数据库Neo4j、内存数据库voltDB、key-volue数据库等。我们看看在高达几万几十万TPS的事务,怎样存储处理呢?
面对各类机器产生的数据、感应器、点击行为等偶发数据,将无疑造成极大的处理瓶颈。
单节点下,比如在ATM机上取款交易在传统关系型数据库上可能只支持1555次交易,但类似Voltdb可支持53000-200000万次交易。在多节点集群下可支持上百万次交易。也就是说,在单表上查询1亿条数据,Voltdb只需要0.045秒。
从前面几个图可以看到voltDB类newOLTP既具有传统关系数据库具备的功能,也具有NOSQL的高可用性能,并且对硬件的要求更低。
无论从速度性能、扩展性、ACID、高可用性、可持久性等都优于传统数据库。
并且有更好的持久性。
应用主要在电信、金融、网络游戏电商、电力等高频交易场景。在高速运算、排名、集合上在实时话单查询、在线计费、在线投票评论、流量分析等等应用上具有不可替代的选择。
特别在计算、排名、集合等方面有更好的性能。
目标市场和应用场景主要在电信金融电商电力等偶发高频事件的场景。
比如:记录当天每笔股票交易对每笔交易进行风险评估和监控实时反应当前整体交易情况。
优势在于:高吞吐极短时间内对交易做出风险评估判断低成本。
类似的高频交易分析在包括摩根大通银行在内的150个华尔街金融机构客户打造实时数据分析平台
第四个方面,我们来看看怎样进行高速的大数据分析呢?
把数据存储后的数据分析,我们再来看看actian这款高速分析平台
怎样高速实现对数据只需进行连接-分析,即可提供给客户价值呢?速度是最大的瓶颈和问题。
我们可以看到,在类似购物篮分析案例中,在传统数据库环境下需要85个小时的分析,在actian下只需要1分15秒钟。
It面对最大的瓶颈和困惑之一就是性能和速度。我们看看类似artian等产品怎样提高大数据分析平台的速度呢?
如果这样,我们可以应用到新的应用系统,提高和升级原有数据中心的速度。
我们再看看大数据分析的可视化解决方案。对于传统企业来说,大数据的商业价值虽然迷人,但相关技术开发和实施的难度以及陡峭的学习曲线始终是个梦魇,针对这种“大数据民主化”需求,硅谷大数据创业公司Datameer开发出的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,任何部门的企业员工都能很快上手。
内置hadoop,并且内置spss、R等众多数据分析模型,灵活地自定义分析。
能更加灵活的自定义应用分析。
在应用上非常广泛,比如用户行为分析、广告优化分析、网络优化分析、防欺诈分析等等应用。
通过这些应用场景和案例分析,我们看到,偶发高频大数据场景下的分析,其目的不仅仅是进行实时动态的分析,更在于依据数据决策,进行实时动态及时的对偶发事件的正确及时处理。
通 过这些应用场景和案例分析,我们看到,偶发高频大数据场景下的分析,其目的不仅仅是进行实时动态的分析,更在于依据数据决策,进行实时动态及时的对偶发事 件的正确及时处理。以上我们通过一些比较成熟的大数据解决方案,以借鉴或研讨。目的看看怎样能真正地在我们各个行业落地的部署大数据应用。在理论研究和科 研基础上怎样使大数据服务我们工作生活!非常高兴给大家汇报交流从偶发高频大数据的抽取+存储+分析+执行,怎样部署大数据分析应用。解决方案商主要集中在以下几个解决方案:
一是hadoop优化方案;二是数据抽取整合方案;三是数据存储优化方案;四是高速的数据分析可视化方案。仅仅从大数据生态和部署环节上提一些看法,
我们与一些合作伙伴和SI共同一些产品解决方案比如:
1、web数据的抽取监控方案---情报商情舆情分析。Connotate+mongoDB
2、wifi数据的营销分析---银行等营业厅wifi点击数据分析:voltDB+MongoDB+connotate+datameer
3、高频交易大数据分析—在线付费、实时电表、在线投票评论等分析:connotate+voltDB+actian+datameer
4、大数据可视化方案—网络优化、反欺诈分析:hadoop+datameer
5、海量数据超高速查询—图书馆、企业知识库海量数据查询:MongoDB+28io
6、系统性能速度分析平台--传统数据中心BI的升级、数据库优化:actian、Neo4j、datastax、voltDB、MongoDB
7、hadoop优化—集群、快速部署、安全密码管理:hadoop+HPPC+Zettaset
8、各类数据抽取整合—WEB数据及结构化非结构化数据抽取整合:syncsort+connotate+datameer
9、wifi与GPS位置数据分析—集装箱位置营销分析、wifi精准营销分析RTB:wifi+voltDB+MongDB+connotate+datameer
10、复杂数据关系分析处理方案---邮路优化、实时投票交流评论、网络优化分析:Neo4j
等等
以上是在实践中的一些案例和方案举例,再次感谢各位!