专栏首页hadoop学习笔记DKHadoop大数据开发框架的构成模块
原创

DKHadoop大数据开发框架的构成模块

大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门、火爆!而这要得益于互联网信息技术的快速发展,网络改变世界、改变生活,大数据技术的应用让这样的改变更为深刻。

关注大数据或者是互联网方面新闻的人应该知道,大数据已经上升到了国家战略的高度。可以说这是时代发展的必然趋势,从国家战略层面推进大数据技术的普及与应用,一个至关重要且非常核心的问题——数据安全问题就非常突出。解决数据安全问题,必然要回归到大数据开发所使用的框架!

国内的大数据开发起步较晚于国外,所有关于大数据大开发的各种标准和规则都是采用国外的那一套。国内做大数据开发的企业或者机构组织所推出的大部分商业发行版本都是对开源程序的二次包装,从事大数据底层开发的少之又少。做大数据原生态开发且又推出商业发行版的,行业也就只有大快搜索,可能在未来的三五年内也许还会有做大数据原生态开发的出现。

为何大数据的普及度不高,主要是由于大数据的应用开发太过偏向于底层,学习的难度不是一般的大,所涉及到的技术面广太大,不是一般人所能够驾驭得了的。市场上大部分打着hadoop国产发行版,也只是把国外的拿过来重新修改了一下而已。大快DKhadoop把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,在很大程度上降低了开发的难度。相信这个对于从事开发的人员看了就更容易懂了。

下面,就给大家介绍看一下大快的大数据开发框架的模块构成都有哪些:

大快大数据一体化开发框架主要由六部分组成:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块。

如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:

数据源与SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka

数据采集:DK.hadoop

数据处理模块:DK.Hadoop、spark、storm、hive

机器学习和AI:DK.Hadoop、spark

NLP模块:上传服务器端JAR包,直接支持

搜索引擎模块:不独立发布

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • DKH企业级大数据解决方案的优势分析

    大数据技术的发展与应用已经在深刻地改变和影响我们的日常生活与工作,可以预见的是在大数据提升为国家战略层面后,未来的几年里大数据技术将会被更多的行业应用。

    IT小白龙
  • 智慧政务大数据云平台建设方案

    从事大数据行业的朋友应该都知道大数据已经上升到了国家战略高度,2015年8月31日,国务院印发了《促进大数据发展行动纲要》。旨在通过建立“用数据说话、用数据决策...

    IT小白龙
  • hadoop框架结构的说明介绍

    近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增...

    IT小白龙
  • 大快大数据开发框架的构成模块

    大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门、火爆!而这要得益于互联网信息技术的快速发展,网络改变世界、改变生活,大数据技术的应用让这样的...

    用户3391135
  • 每天 3 分钟,小闫带你学 Python(二十六)

    An amateur practices until they can play it correctly, a professional practices ...

    小闫同学啊
  • 【译】在生产环境中使用原生JavaScript模块

    两年前,我写了一篇有关module/nomodule技术的文章(译者注:原文地址https://philipwalton.com/articles/deploy...

    WecTeam
  • 企业在使用云端的软件应该知道这些

      说起云端,大部分人脑中闪现的一句话就是,xx云,从删库到跑路,因为云给人一种虚拟的感觉,不能像实体经济,可以给人一种安全感,觉得数据放在云端极为不安全,所以...

    明象ERP
  • 【机器学习调查】脏数据最棘手,逻辑回归最常用

    【新智元导读】数据科学社区Kaggle的最新调查显示,机器学习和数据科学研究者在被问到工作中面临的最大障碍时,最常见的回答是“脏数据”,其次是缺乏该领域的人才。...

    新智元
  • 线性分类与Principal Component Analysis

    如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。 谈到L...

    昱良
  • Python面向对象之模块和包

    使用as指定模块的别名 如果模块的名字太长,可以使用as指定模块的名称,以便在代码中的使用;语法如下:

    py3study

扫码关注云+社区

领取腾讯云代金券