前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据采集网关|工业数据采集网关

数据采集网关|工业数据采集网关

原创
作者头像
用户6789871
修改2019-12-03 18:43:41
1.8K0
修改2019-12-03 18:43:41
举报
文章被收录于专栏:物联网wtblnet.com

数据采集网关|工业数据采集网关

随着数据量的不断增速,数据价值也逐步被许多公司所关注,尤其是偏重于业务型的企业,许多数据的发生,在未被挖掘整合的进程中通常被看作是一堆无效且占用资源的;但一旦被发掘,数据的价值将无可估计。尤其像电商,银行,服务行业等等。近段时刻有幸参与负责了一个大数据项目,今日主要对收集体系做一次简单的复盘:

数据收集体系故名思意就是将数据从数据源收集到能够支撑大数据架构环境中,从而实现数据的收集以便后期对数据的二次加工树立数据仓库。

数据采集网关,物通博联数据采集网关相关产品:

一、业务流程整理

在业务流程整理的进程中,咱们先预设个场景,如:

当公司运营人员提出一个订单转化率的需求,作为产品人员,首先要确认剖析订单转化率与哪些因素有关,终究确认从用户下单,支付这两个环节中剖析,如当月有多少用户提交了订单,之后有多少用户确认了订单,有多少用户终究支付订单等;终究呈现了漏斗形的剖析主题;因而剖析时就需求确认所需求的这些数据要从哪些表获取,都需求获取哪些数据,获取到后要收集存储到哪个数据仓库的表中,终究被运用到。

因而从上面的比如中咱们能够从以下几点思考业务流程:

  1. 确认主题,确认主题模型;
  2. 确认表和数据口径;
  3. 确认需求与方针的映射联系;
  4. 确认表与口径需求从哪些源下获取,以及如何数据更新的频率等;

从以上几点咱们能够看出,第一点主题模型咱们今日不做过多的介绍,侧重从2~4点剖析能够将收集体系划分为数据源装备、表结构的办理、源表办理、映射装备和收集使命办理几大模块。

  • 数据源办理包含新增,修正,删除等;
  • 表结构办理包含表结构的批量导入,检查等;由于收集进程中表是要参与映射的,结构一旦导入是不允许修正的,以免影响后边的收集装备文件的输出。
  • 映射装备主要是装备表与表,字段与字段的映射联系,过滤条件与增量的设置。作为收集的装备模板运用;为什么不是在之前就与数据源相关的意图是由于解耦表与数据源的联系,方便于后期的扩展和用户易用性。
  • 收集使命办理主要是树立源与源之间收集进程以及使命的履行情况。

二、原型留意点

1. 数据源办理

数据源一般会分为许多种类型,因而,咱们需求树立数据源类型;如ORECAL、mysql、hive等。

添加数据源时,对于所填写内容的校验一般会依据需求来决议,需求填写的字段大致包含源称号,服务器,端口,用户名,暗码等。

2. 表办理

表结构的获取一般会有两种方法,一种是经过衔接数据库获取,一种是本地保存,直接从本地获取。详细运用哪种方法依据实际情况来决议。如果是用的第二种,则需求将表结构整理预先导入体系,以便后期运用。

hive的表结构有一些特殊,比一般数据库的表结构多几列,如:分列称号,分区值等。

3. 映射装备

映射装备主要是确认源表和方针表,一起树立字段映射联系;亦可设置过滤条件,数据收集的周期装备设置等。

4. 使命办理

主要是树立源与表,源与源的联系;一起能够对使命的履行周期来进行设置;使命装备的进程中,能够是以方针源为维度,亦能够以方针表为维度树立使命,一起可对历史使命进行监测。

三、项目上线后复盘总结

1. 需求方面

收集体系在了解前期,产品和研制考虑的点有所不同,导致原型、规则在评定后的开发初期有一些小的改动,不过全体需求上还算能够承受。

2. 交互方面

由所以B端的后台体系,一般会选用一套共用的的体系框架,因而在出具需求的进程中,只侧重说明晰需求留意的交互方法,一些共用的交互方法并未做过多的说明;因而在交互这多了许多的沟通成本。

3. 项目履行

全体进展还好,不过由于一些组件的提早打包界说,导致在开发进程中有些不能满意需求,耽误了一些进展。

4. 个人方面

对数据仓库的了解和认识上有所提高,对SQL的学习也算是一次稳固,一起在做的进程中对自己曾经遇到过的数据需求也有了一些新的思考思路和总结复盘。总之是收成满满。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档