展开

关键词

马哈鱼带你发现SQL中的

点击分析按钮后,查看的可视化结果。在浏览器中,以交互形式,查看特定表或视的完整。 Frontend, 前端由一列 javascript、html 代码组成。负责 SQL 的递交、的可视化展示。Grabit , 一个 Java 程序。 但在 ETL 转换过程中,会用到很多其它技术和,由此产生的目前 马哈鱼分析器无法探知。 Architecture document 八、这里用库中常用的表和视来对做一个说明,实际的情况会比这个复杂。 马哈鱼分析器会帮助你回答这些问题,以可视化的形方式把 呈现在你面前,让你对组织的IT统中的流动一目了然。

15520

“入门

什么是的产生、加融合、流转流通,到最终消亡,之间自然会形成一种。借鉴人类社会中类似的一种来表达之间的这种,称之为是元的组成部分之一。 可追溯性,体现了的生命周期,体现了从产生到消亡的整个过程,备可追溯性。层次性是有层次的。 从中,可以很方便的得到过程,进而分析可能的质量问题。生命周期通过,可以直观地得到整个生命周期。对于那些价值不大的,可以考虑分层、归档甚至是销毁。 机器学习这个方法是基于集之间的依赖,计算的相似度。这个方法的好处是对和业务没有依赖,缺点准确率需要人确认。目前还没有看到很好的程实现。 对象间不只有,还有一种引用级,即对象间联使用,包括但不限于表、视、模型、报表、作业等。这对于价值评估,资产管理等,均有意义。

4.8K41
  • 广告
    关闭

    50+款云产品免费体验

    提供包括云服务器,云数据库在内的50+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    干货 | 携程构建及应用

    的产生,通过加融合流转产生新的,到最终消亡,之间的可以称之为。 第一版T+1构建Hive引擎的表级别的,第二版近实时构建Hive,Spark,Presto多个查询引擎和DataX传输的字段级别。 在16-17年实现和上线了第一个版本,收集常用的和引擎的表级别的,T+1构建。 在19年迭代了第二个版本,支持解析Hive,Spark,Presto多个查询引擎和DataX传输的字段级别,近实时构建。 针对各个计算引擎和传输DataX开发不同的解析插件,将解析好的发送到Kafka,实时消费Kafka,把写到分布式JanusGraph。

    25720

    解读

    一般采集Elasticsearch做元信息检索和Neo4J做 包含了集群、表级和字段,其指向的上游来源,向上游追根溯源。 在传统的ETL如Informatica、DataStage和开源Kettle中都有相应,以informatica ETL的表级和字段级。 但只能展现使用这些传统ETL,其他方式ETL却无法生成。其不灵活也不便于元统一集中管理。 如果多种计算引擎就使用上述笔者给出技术架构,通过对不同存储和计算引擎监听动作,使用Antlr4开发各版本SQL解析,动态识别元信息变更、删除和新增实时或准实时生成集群、表级和字段

    28350

    治理那点事」列之二:手握「户口本」,治理肯定稳!

    它除了包含个人姓名、年龄、性别、身份证号码等各种基本描述信息外,还有这个人和家人的,比如说父子,兄妹等等。所有的这些信息加起来,构成对这个人的全面描述,也可以称之为这个人的元。 没错,一张战场的地必不可少!而元治理当中,就相当于所有的地。在这张的地中,我们可以知道:我们有哪些分布在哪里?这些分别是什么类型?之间有什么? 如我们可以浏览表的结构、字段信息、模型、指标信息等。通过合理的权限分配,元查看可以大大提升信息在组织内的共享。② 和影响性分析和影响性分析主要解决「之间有什么」的问题。 分析指的是获取到,以历史事实的方式记录的来源,处理过程等。 以某张表的为例,分析展示如下信息:分析对于用户有重要的价值,如:当在分析中发现问题的时候,可以依赖,追根溯源,快速地定位到问题的来源和加流程,减少分析的时间和难度

    43640

    饿了么元管理实践之路

    王金海 饿了么大平台架构师多年大平台开发架构实践,曾在唯品会担任人群个性化推荐研发作;目前主要负责饿了么大平台的调度统和元统架构研发。 Hook执行中采集(比如HiveHook),发送Kafka,消费Kafka,生成Relation保存库Titan,并提供REST接口查询功能,支持表,列级支持不完善。 列结构?存储?有了input、operation、output,将input、output保存为节点,operation保存为边。库选用Gremlin+Neo4j。 A:对的,线上还是线下,任务调度统埋点,临时表根temp就知道了。Q7:如果使用Hive hook方式获取,是需要在每个执行节点中做捕捉吗? Q9:表里面的上下级就是的流向?从上到下?字段的是什么样子的跟表的有什么不同?有字段的吗?

    2.7K43

    你了解你的吗(元婴篇):分析

    其实总的说来,能帮你更好地理解自己的!0x03 于实现实现的话不打算在这里多聊,因为一般是和元管理紧紧绑定起来的,在设计元管理统的时候应该要考虑到的内容。 于元统的设计可以参考这篇博客《别人家的元统是怎么设计的》。这里随便提一句,的管理可以考虑使用来实现,用的好处是更容易展现表之间的。 比如说下面两个需求点,用库写 Sql 的话会很麻烦,但是用库的话逻辑就十分简单。找到一张表依赖的所有的表和生成路径。找到依赖于某张表的所有表,和它们的生成路径。 补充: 有朋友会问,从哪来?这个其实途径很多,最简单的方式可以从所有的 Hive Sql 中解析出来对,也可以从其它的代码或者调度统中解析。体实现可以根业务场景来实现。 0xFF 总结居士个人理解,是理解的一个十分重要的点,它能让你快速清晰地理解你所注的的生成路径。然后于本文,闲扯的比较多,而且不是特别严谨。

    4.9K62

    Nebula Graph 在微众银行治理业务的实践

    ,从而建立记录在 Log 中。 生成之后写入执行节点,即 Driver 所在节点,从而形成 Lineage Log。 再用微众银行内部的自动化运维 AOMP 每日从各个节点导入存储到 Hive ODS DB。 这是治理的实时查询和批量分析架构,主要通过 ETL 加再写入到存储统中。 体的技术实现是调用 Nebula Java Client 连接 Nebula Graph 查询得到。二是批量查询,当然批量查询所需的已构建好并存储在 Nebula Graph 中。 ,比如:某张表昨天到今天的,可基于时间维度进行过滤和检索。

    36220

    资产治理-元采集那点事

    需要覆盖到全链路,包括离线计算平台、实时计算平台、内部,任务元等。采集元的过程中,我们遇到以下困难:类别多需要采集组件的基础元、趋势、资源、任务。 如何查找这些的流转是怎么样的?结合进行问题溯源和影响分析。2.2 采集了哪些元如下所示,是一张的流转,我们主要采集了各个平台组件的:? 资源集群的吞吐量、QPS、调度任务消耗Cpu、内存大小等信息。表字段级别的上下游依赖、任务的输入输出表依赖。 SQL类型任务通过“Sql Parser”(使用ANTLR4统实现的sql改写解析SQL脚本获取表字段级别的。 3.1 离线平台主要是采集HiveRDS表的元。 3.3 内部主要是BI报表统(一张BI报表查询的Hive表、Mysql表)、指标库(指标联的Hive表和字段)、OneService服务(接口访问哪些库表的)的

    42320

    浅谈管理的DNA — 元

    左右两侧分别是主要接入方和应用方,接入方主要包括了大引擎、管理、开发平台及,应用方主要包括、开发平台、治理平台等。 存储层:基于模型的实体、的存储与查询,支持统计与分析能力。应用层:提供资产地搜索、全链路等功能。? 元统提供了全链路功能,提供实时查询能力,解决来源不容易确定、难以评估变动造成的影响等问题。元中的生产加治理中也有广泛的应用场景。 下是通过一个简单的例子介绍是如何构建起来的。主要会使用到元中表示的属性,例如输入、输出、绑定、联等。? :全链路(来源:快手)除了上面应用场景外,元还有以下应用场景: 元查询:开发平台、指标模型管理、BI等通过元服务查询库表信息。

    14350

    栈技术分享:栈如何保障企业安全和隐私?

    为了全方面保障安全,「栈-」支持对的实时解析,当用户对敏感插入其他表,或进行加处理后,新的依然会保持脱敏状态,防止敏感外泄。 用户可在脱敏管理模块中查看某个脱敏规则联的表、字段信息,并支持对部分表闭开启脱敏。「栈-」还支持对脱敏表的查看与管理,可对上下游表的脱敏配置,执行一键闭开启。 1)脱敏的配置-支持对上下游的表自动设置脱敏使用栈进行脱敏的配置是非常简单的,用户仅需选择某张表的某个字段,统可自动根字段级沿袭,对上下游的表自动设置脱敏。 为了全方面的保障安全,「栈-」支持对的实时解析,当用户对敏感插入其他表,或进行加处理后,新的依然会保持脱敏状态,防止敏感外泄。 用户可在脱敏管理模块中查看某个脱敏规则联的表、字段信息,并支持对部分表闭开启脱敏.支持对脱敏表的查看与管理,可对上下游表的脱敏配置,执行一键闭开启。​

    11700

    聊聊仓库建设

    因此,对于,我们要确保每个环节都要注意质量的检测和处理,那么我们后续才会有优良的基因,即有很高的质量。 的作用溯源:,体现了的来龙去脉,能帮助我们追踪的来源,追踪处理过程。 评估价值:的价值在交易领域非常重要,,可以从受众、更新量级、更新频次几方面来给价值的评估提供依质量评估:从质量评估角度来看,清晰的源和加处理方法,可以明确每个节点质量的好坏。从上,可以方便地看到清洗的标准清单。 归档、销毁的参考:从生命周期管理角度来看,有助于我们判断的生命周期,是的归档和销毁操作的参考。示例如下:

    12021

    【Spark教程】核心概念RDD

    基于RDDs之间的依赖,RDDs会形成一个有向无环DAG,该DAG描述了整个流式计算的流程,实际执行的时候,RDD是通过(Lineage)一气呵成的,即使出现分区丢失,也可以通过重建分区 RDDs之间存在依赖,RDD的执行是按照延时计算的。如果较长,可以通过持久化RDD来切断。 缓存如果在应用程序中多次使用同一个RDD,可以将该RDD缓存起来,该RDD只有在第一次计算的时候会根得到分区的,在后续其他地方用到该RDD的时候,会直接从缓存处取而不用再根计算, Checkpoint虽然RDD的天然地可以实现容错,当RDD的某个分区失败或丢失,可以通过重建。 )如果被Checkpoint,则从Checkpoint处恢复;3)根计算分区的

    2.5K00

    在大行业作两年是怎样一种体验

    说起,应该是大治理的入口,通过一张表,能够清晰看见它的来龙去脉,字段的拆分,清洗过程,表的流转,的量的变化,都应该从出发,我个人认为,大治理整个的目标就是这个 ,从能够有监控全局的能力。 是依托于大开发过程的,它包围着整个大开发过程,每一步开发的历史,导入的历史,都应该有相应的记录,资产有一定规模时,基本必不可少。 全平台监控监控其实包含了很多的点,例如应用监控,监控,预警统,统等,对我们接管的每个源、表都需要做到实时监控,一旦发生殆机,或者发生停电,能够第一时间电话或者短信通知到体负责人,这里可以借鉴一些自动化运维平台的经验的 我要说,代码是要学的,要写的,但是与作无,代码是我个人的技能,个人傍身,实现个人想法的重要技能。 但是代码与业务的不大,在作中,懂业务的人代码写的更好,因为他知道公司想要什么。

    24200

    什么是RDD?带你快速了解Spark中RDD的概念!

    RDDs之间存在依赖,RDD的执行是按照延时计算的。如果较长,可以通过持久化RDD来切断。 3.4 缓存 如果在应用程序中多次使用同一个RDD,可以将该RDD缓存起来,该RDD只有在第一次计算的时候会根得到分区的,在后续其他地方用到该RDD的时候,会直接从缓存处取而不用再根计算 3.5 CheckPoint 虽然RDD的天然地可以实现容错,当RDD的某个分区失败或丢失,可以通过重建。 但是对于长时间迭代型应用来说,随着迭代的进行,RDDs之间的会越来越长,一旦在后续迭代过程中出错,则需要通过非常长的去重建,势必影响性能。 为此,RDD支持checkpoint将保存到持久化的存储中,这样就可以切断之前的,因为checkpoint后的RDD不需要知道它的父RDDs了,它可以从checkpoint处拿到

    26150

    是什么?举例告诉你哪种方式更适合元的录入

    分析分析分析(也称统分析)是指从某一实体出发,往回追溯其处理过程,直到统的源接口。 分析正是提供了这样一种功能,可以让使用者根需要了解不同的处理过程,每个处理过程体做什么,需要什么样的输入,又产生什么样的输出。 本功能可以用来支撑需求变更影响评估的应用.实体差异分析实体差异分析是对元的不同实体进行检查,用形和表格的形式展现它们之间的差异,包括名字、属性及和对统其他部分影响的差异等,在统中存在许多类似的实体 本功能有助于进一步统一统计口径,评估近似实体的差异指标一致性分析指标一致性分析是指用形化的方式来分析比较两个指标的是否一致,从而了解指标计算过程是否一致。该功能是指标分析的一种体应用。 辅助应用优化元统的过程以及间的提供了准确的描述,利用分析、影响分析和实体联分析等元分析功能,可以识别与统应用相的技术资源,结合应用生命周期管理过程,辅助进行统的应用优化

    46651

    库、库管理统、SQL和形界面

    库、库管理统、SQL和形界面本文键字:库、DBMS、SQL、形界面 刚刚接触库的小伙伴可能会对几个名词混淆不清,一上来又是命令又是的,这篇文章帮大家来明确一下这几个概念之间的于SQL和DBMS的我想大家应该已经很清楚了,SQL是库语言的标准,可以适用于多种库。 在有些时候也会用T-SQL来代表某一个库自己对SQL语言的扩展或高级用法,这里注意区分。四、形界面说到形界面,其实就是我们最常使用的软件,那为什么还要弄出这么个词呢? ,就会借助形界面了,也就是说形界面本身只是一个操作DBMS的可视化软件,必须连接到一个正常作的库服务才能使用。 这里给大家介绍一些官方,大家可以根喜好自行选择:Oracle SQL Developer:Oracle库官方形界面(免费)下载地址:https:www.oracle.comcntoolsdownloadsoracle-sql-developer-download.htmlMySQL

    46031

    平台 - 采集及治理

    源管理与状态监控定时、实时、全量、增量等多模式的采集及任务监控元管理、补采及归档----常用采集SqoopSqoop是常用的库与HDFS之间的导入导出,将导入或导出命令翻译成 ,深层价值无法体现治理的目标:建立统一标准与规范,保障质量制定管理流程,把控整个生命周期形成平台化,提供给用户使用治理:治理包括元管理、质量管理、管理等治理在采集 、清洗、计算等各个环节治理难得不是技术,而是流程、协同和管理元管理:管理的库表结构等schema信息存储空间、读写记录、权限归属及其他各类统计信息管理:之间的及生命周期 B表的从A表汇总而来,那么B和A表就的业务属性信息和业务模型治理步骤简述:统一规范和定义,打通业务模型和技术模型提升质量,实现全生命周期管理挖掘价值,帮助业务人员便捷灵活的使用治理与周边统 通过库和计算弓|擎展现之间的捕获:Hook:来自各个组件的Hook自动捕获进行存储Entity:集成的各个统在操作时触发事件进行写入获取元的同时,获取之间的

    83710

    治理方法论和实践小百科全书

    我们的实践是在元资源清单之间建立,且业务团队使用的项由元组合配置而来,这样,就建立了使用场景与源头之间的。 通过对离线集和在线集的元刻画,满足了用户找和理解的诉求,通过谱,完成物理表到产品的建设,消除用户人肉评估的痛苦。离线场景键字检索和向导查询共同解决了“找”的问题?? 但现在打通了“业务表字段 -> 仓表字段 -> 产品”三者之间的,就能够在10分钟内完成评估作。对于不同的场景,链路提供了两个便捷的功能:过滤和剪枝。 这种情况下,直观地显示影响了哪些负责人和产品,以及这个表的下游链路。?有些表的链路很长,整个很大,这样会导致用户定位信息或问题。 所以提供了剪枝的功能,对于没用的、不想看到的分支可以剪掉,从而让整个链路变得更加直观。

    14840

    Github 1.9K Star的治理框架-Amundsen

    image.png Amundsen的使命,整理有的所有信息,并使其有普遍适用性。这是Amundsen官网的一句话,对于元的管理作,复杂且繁琐。 可用的很多各有千秋,做的较好的应该是Apache Atlas,而可视化做的较好的应该是Apache Superset。 元服务元服务目前使用的Neo4j的库进行交互。功能展示Amundsen提供了搜索,推荐,表描述,预览在内的非常多的功能,功能正在研发中。 :表预览的可视化,可以与Apache Superset或其他可视化集成。 近期作重点(设计完成)集成质量统(进行中)列值过滤(已开始)搜索结果层次结构(计划中)当然,还有很多计划中的功能,这里不一一列举。

    42821

    相关产品

    • 图数据库 KonisGraph

      图数据库 KonisGraph

      图数据库KonisGraph(TencentDB for KonisGraph)是基于腾讯在社交网络、支付、游戏和音乐等业务场景超大规模图数据管理的经验积累,为您提供的一站式高性能海量图数据存储、管理、实时查询、计算和可视化分析的数据库服务。支持属性图模型和TinkerPop Gremlin查询语言,帮助用户快速完成对图数据的建模、查询和分析;支持百亿级节点、万亿级边的超大规模图数据中关联关系的查询分析。广泛适用于社交网络、金融支付、安全风控、知识图谱、广告推荐和设备拓扑网络等具有海量关系数据的场景。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券