首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

企业数据治理及美团最佳实践

CMMI DMM数据管理能力成熟度评估模型 数据治理成熟度评估是利用标准成熟度评估工具结合行业最佳实践,针对企业数据治理现状进行客观评价和打分,找到企业数据治理短板,以便制定切实可行行动方案。...④实施周期长,没有清晰数据治理目标和范围约定情况下,数据治理是一个“无底洞”。所以,实施数据治理项目之前制定好实施路线图和详细实施方案就显得格外重要(第6、7步)。...为了适应这种变化,避免仅仅因增加维度带来中间层数据重复建设,我们将组织层级维表由固定层级建模方式调整为桥接表方式来自适配组织层级变化,从而实现了中间层模型可以自动适配组织层级变化,能自动产生维度指标...很多同学基于需求进行开发时,为实现方便,将指标口径通过“Case When”方式应用层和中间层进行封装开发,主题层建设不能随着业务迭代不断完善,RD开发过程中会直接引用仓库快照表中间层或应用层完成需求开发...为解决敏感数据整个生产链路扩散,我们快照层对敏感数据进行脱敏处理,从快照层开始消除敏感数据,为保障敏感数据可逆性,将ODS层敏感数据抽取到安全库中并进行加密存储,实现安全独立管理。

1.3K11
您找到你想要的搜索结果了吗?
是的
没有找到

云中进行数据保护和恢复最佳实践

然而,当涉及到云中实施数据保护时,也有一些严重局限性: 管理文件是企业用户自己责任。...如下是一些值得借鉴最佳实践方案,可以帮助企业实施品牌管理并高效存储和管理他们数据(不管这些数据是托管在哪里): 创建一套详细数据保护规划。...分析您企业指标并测试计划。大型销售活动结束后,销售经理将进行绩效评估,而IT经理应该对数据保护做同样工作。正式保护规划应包括各种基准和目标,以及可以按计划进行审查数据。...有很多软件程序承诺从USB或硬盘提取丢失数据,这些可能是奏效,但他们是非常危险,由于存在恶意软件威胁,他们很多时候并没有获得客户支持。花少量钱选择有信誉企业来帮助恢复检索数据最佳选择。...而通过选择和遵循涉及集中管理和智能存储数据保护最佳实践,企业可以大大降低数据丢失可能性,并专注于更多创收机会。

71870

浅谈Spark数据开发中一些最佳实践

目前我们正在构建一个基于eBay站外营销业务全渠道漏斗分析指标,涉及近十个营销渠道、数十张数据源表,每天处理数据达到上百TB。...长时间生产实践中,我们总结了一套基于Scala开发Spark任务可行规范,来帮助我们写出高可读性、高可维护性和高质量代码,提升整体开发效率。...,这样我们可以轻松理解这段代码到底是在做什么: 4 Spark开发最佳实践 一、使用Spark cache时,需要考虑它能否带来计算时间上提升。...但是一些业务场景中的确有这种join情况,解决方案有两种: join前将数据存储到临时目录(一般是HDFS),再重新加载进来,用来截断血缘。...此篇文章总结了我们使用 Spark 过程中所遇到挑战和技术案例,希望能够抛砖引玉,引出更多更好实践方案。最后,也要感谢杨青波对此文章贡献,以及刘炼和刘轶审稿。

1.4K20

Spark 3.0特性FreeWheel核心业务数据团队应用与实战

2实践成果 这次升级主要实践成果如下: 性能提升明显 历史数据 Pipeline 对于大 batch 数据(200~400G/ 每小时)性能提升高达 40%, 对于小 batch(小于 100G/...batch 数据大小通过算法学习得到最佳机器数。...对 Spark 3.0 特性感兴趣同学可以参考我另外一篇文章——关于 Spark 3.0 关键特性回顾。...启用 Yarn 结点标签 EMR 6.x 发布里,禁用了 Yarn 结点标签功能,相较于原来 Driver 强制只能跑 Core 结点上, EMR 里 Driver 可以跑在做任意结点...现担任 Comcast FreeWheel 核心业务数据 Transformer 团队负责人,主要负责基于大数据 Data Pipelines 平台搭建、实践、优化及数据仓库建模与核心数据发布。

86010

独家 | 时间关系数据上AutoML:一个前沿

作者:Flytxt 本文介绍了AutoML发展历史及其时间关系数据应用方案。 现实世界中机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。...时间关系数据库中使用AutoML 诸如在线广告,推荐系统,自动与客户交流等机器学习应用中,数据集可以跨越多个具有时间戳相关表来显示事件时间安排。...没有域信息情况下,实现基于时态关系数据真实世界AutoML案例包括自动生成有用时态信息和跨多个子表格有效合并特征,且不会导致数据泄露。...除了这些困难外,还需要自动选择最佳学习模型和受资源约束超参数集,以使解决方案足够通用,并且符合时间和内容预算。...时态数据聚合 当时态关系数据跨越多个表格时,找出表间重要关系然后以最佳方式执行数据聚合将有助于特征提取。

84410

DDD领域驱动设计实战-服务和数据微服务各层协作最佳实践

用于处理用户发送Restful请求和解析用户输入配置文件等,并将数据传递给应用层。或者获取到应用层数据后,将DO组装成DTO,将数据传输到前端应用。 应用服务 位于应用层。...前端应用调用发布API网关上Facade服务,Facade定向到应用服务。...微服务之间服务调用 微服务间应用服务可直接访问,也可通过API网关。由于跨微服务操作,进行数据新增和修改操作时,注意保证数据一致性。 领域事件驱动 领域事件驱动包括微服务内和微服务之间事件。...设计时我们主要考虑实体自身属性和业务行为,实现领域模型核心基础能力。不必过多考虑外部操作和业务流程,这样才能保证领域模型稳定性。 业务规则和逻辑校验领域层。...展现层使用VO进行界面展示,通过用户接口层与应用层采用DTO对象进行数据交互。 参考 视图:如何实现服务和数据微服务各层协作?

2.3K31

数据驱动:理查孙手工NWP实践百年后引擎

第三,以数据驱动和机器学习(ML)为代表、瞄准 复杂过程给出预测新技术,有可能在使得NWP 动力驱动确定性预报发展走向“内卷”或“锢囚”时,打开“数据驱动”窗户和新路径。...,该理论基于 20世纪初大气运动为物理初值问题理论,定义了大气运动物质面上主要特征,如冷暖峰、槽脊线等。...丰富数据本身,已经可以通过挖掘数据,对其表征主体演化规律加以认识阶段,而当这种认识处于目前科学研究空白或准空白时,这种挖掘和规律认知 范式,无疑具有了更加重要和新方向意义。...4 结语:AI已呈现超越当年理查孙,或引 领气象发展范式 我们今天纪念理查孙百年前完成探索,其中 一个重要原因,就是当天气预报问题是物理初值问题已经被学界接受,但面对一组动力学和热力学非线性方程组而无能为力时...,当前需要保持当年皮耶克尼 斯态度和前瞻视野,学习理查孙有了信念就动手实践,借AI技术曲尽原始动力方程之幽深,气象和大气 科学以范式迎接获得更大发展未来,完全可期!

23520

InfoWorld最佳开源大数据工具奖,看看有哪些需要了解学习晋工具

一年一度由世界知名科技媒体InfoWorld评选Bossie Awards于2016年9月21日公布,评选了最佳数据工具奖,最佳数据应用奖,最佳网络与安全奖等多个奖项。...最佳开源大数据工具奖中,GoogleTensorFlow和Beam无可置疑入选,同时也有Spark,Elasticsearch, Impala,Kylin,Kafka,Zeppelin等市场热点,...Bossie Awards是知名英文科技媒体InfoWorld针对开源软件颁发年度奖项,根据这些软件对开源界贡献,以及在业界影响力评判获奖对象,由InfoWorld编辑独立评选,目前已经连续近十年...除了实现SQL及性能增强特性外,Spark2.0 将DataFrame近一步标准化,提供了结构化流式API(Structured Streaming APIs), 及全新并改进SparkSession...打个比喻,你有很多圆形数据,要放入方型洞里。也许这些数据保存在文件中(比如网站日志),或许Kafka流中。

1.1K60

最佳实践大奖:中兴通讯大数据平台中国农业银行应用

2017年12月7-9日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“大数据与智能”为主题2017中国大数据技术大会在北京云南皇冠假日酒店隆重举办...中兴大数据中国农业银行应用获最佳实践大奖,本文将介绍中兴通讯大数据平台中国农业银行应用。...项目背景及挑战 当今时代,利率市场化,同业竞争加剧,迫使金融企业要尽快引入新技术,完善移动渠道访问能力,增加服务渗透力,加快业务部署上线速度。残酷竞争导致利润空间下降,IT 成本压缩。...一方面随着数据爆炸性增长,传统架构已经无法满足金融行业实际需求,信用风险、合规审计、柜面改造等多个业务领域都急切需要大数据技术支撑。...GoldenData HD是基于开源技术成熟数据商用平台,整合了中兴通讯近10年大数据项目实践技术沉淀。

1.5K00

《大数据+AI大健康领域中最佳实践前瞻》---- 基于 pyspark + xgboost 算法 欺诈检测 DEMO实践

请参考之前博文: 使用 WSL 进行pyspark + xgboost 分类+特征重要性 简单实践 银行需要面对数量不断上升欺诈案件。...欺诈检测一般性处理流程介绍 流程图说明 正如我们在上面看到,我们接收我们输入,包括关于金融数据中个人保险索赔数据(这些包含索赔特征、客户特征和保险特征)。...经过一些预处理和添加特征,我们使用数据来训练XGBOOST分类器。 分类器被训练之后,它可以用来确定记录是否被接受(不欺诈)或被拒绝(欺诈)。 下面将更详细地描述该过程流程。...我们首先做一些初始预处理,将数据字段转换成合适格式。然后,基于输入,我们生成特征,这些特征基于以前索赔次数、以前欺诈发生次数、索赔总额等因素来描述客户。...这些客户细分特征与详细说明警告代码存在(或缺乏)特征一起添加到现有数据集中,诊断代码等。

98630

mongoDB设置权限登陆后,keystonejs中创建数据库连接实例

# 问题 mongoDB默认登陆时无密码登陆,为了安全起见,需要给mongoDB设置权限登录,但是keystoneJS默认是无密码登陆,这是需要修改配置来解决问题 # 解决 keystone.js...brand': 'recoluan', 'mongo': 'mongodb://user:password@host:port/dbName', }); 1 2 3 4 5 复制 这里需要注意是...,mongoDB设置权限登录时候,首先必须设置一个权限最大主账户,它用来增删其他普通账户,记住,这个主账户时 无法 用来设置mongo对象, 你需要用这个主账户创建一个数据库(下面称“dbName...”),然后在这个dbName上再创建一个可读写dbName普通账户,这个普通账户user和password和dbName用来配置mongo对象

2.4K10

《大数据+AI大健康领域中最佳实践前瞻》 ---- 使用ElasticSearch 、数据库进行医疗基础数据标准化方法

由于各地方医疗信息化程度差异和不同HIS厂商执行标准上差异,导致医疗数据结构和内容上不统一。甚至同地区不同医院都有巨大差异。这样导致医疗数据使用时候出现各种信息偏差无法使用。...如何把某个地区医疗机构业务数据转换为我们可用数据就是问题关键。转换过程可以理解为把一系列数据对应到标准数据上,这个过程叫做数据映射。...完成这个转换过程是需要用到数据字典,数据字典存储了标准数据数据字典和数据映射相互配合完成数据标准化治理,并标准化输出给保险公司。 标签是一种用来描述业务特征数据形式。...需要保证数据质量时候可以通过校验、复核等功能加以控制。 数据字典和数据映射随着服务客户数量增加,积累数据量也不断增加。沉淀数据成为公司最重要资产之一。...每种字典存储相对应标准数据数据字典允许扩展可以为每种字典根据业务需要建立字典标签。字典标签是基于字典数据基础上,添加更多维度数据作为标签数据输出。

1.1K20

GAN中通过上下文复制和粘贴,没有数据情况下生成内容

魔改StyleGAN模型为图片中马添加头盔 介绍 GAN体系结构一直是通过AI生成内容标准,但是它可以实际训练数据集中提供内容吗?还是只是模仿训练数据并以新方式混合功能?...我相信这种可能性将打开数字行业中许多有趣应用程序,例如为可能不存在现有数据动画或游戏生成虚拟内容。 GAN 生成对抗网络(GAN)是一种生成模型,这意味着它可以生成与训练数据类似的现实输出。...例如,经过人脸训练GAN将能够生成相似外观逼真的面孔。GAN可以通过学习训练数据分布并生成遵循相同分布内容来做到这一点。...尽管它可以生成数据集中不存在新面孔,但它不能发明具有新颖特征全新面孔。您只能期望它以方式结合模型已经知道内容。 因此,如果我们只想生成法线脸,就没有问题。...但是,如果我们想要眉毛浓密或第三只眼脸怎么办?GAN模型无法生成此模型,因为训练数据中没有带有浓密眉毛或第三只眼睛样本。

1.6K10

《大数据+AI大健康领域中最佳实践前瞻》---- 智能服务保险业务中应用探讨

,大数据搜集变得更为方便和可行,大数据应用价值受到了各行各业关注,甚至大数据本身也成了一个专门产业。...各种保险销售网站,成为了保险公司保费增长点。甚至客户通过手机微信等软件终端,就可以轻松完成投保或理赔过程,在这种情况下,材料真实性验证难度较大,信息不对称性更为突出,机会型欺诈风险增加。...异地出险增加,也对理赔后续工作提出较高要求,容易出现保险服务流程衔接空白。传统保险销售过程中,销售人员与客户面对面地沟通,其实也是一种了解客户过程。但是互联网保险发展让这个过程消失。...建立投保人标签库 通过aws EMR集群上对原始数据(投保人历史医疗数据、当次体检数据等)进行ETL处理,选择适配标签处理模式,对于每一个投保人生成一个特有的标签记录。...参考文献 模型可解释性保险理赔反欺诈中实践 商业健康险医疗健康领域定位及平台化实施路径

68910

一年里,选个关注热度上升数据工具学习下吧

YARN 是一种Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一资源管理和调度,解决了旧MapReduce框架性能瓶颈。...PVFS 是一个高性能、开源并行文件系统,主要用于并行计算环境中应用。PVFS特别为超大数量客户端和服务器端所设计,它模块化设计结构可轻松添加硬件和算法支持。...Kafka 是一种高吞吐量分布式发布订阅消息系统,它可以处理消费者规模网站中所有动作流数据,目前已成为大数据系统异步和分布式消息之间最佳选择。...Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据,如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。...自称“世界上第一个和最好图形数据库”,“速度最快、扩展性最佳原生图形数据库”,“最大和最有活力社区”。

60810

7-Eleven实例:大数据+心理学分析零售中应用

他曾经说道:“在学习和实践过程中,我看重数据,从数据里挖掘价值,同时也锤炼出了一双不会盲目轻信数据眼睛,能在第一时间捕捉数据细微变化,并深层次思考变化原因,这是因为我理解他人心理。”...7-Eleven中,数据化管理流程为分析需求、搜集/整理数据数据可视化、分析数据、模型建立、决策应用,通过这个过程将数据分析结果以及所产生各个场景中决策建议甚至是直接决策运用到生产、销售、...而作为7-Eleven经营重要根据方法论——“假设、实践、验证”,其实也是数据化管理一种重要体现。...7-Eleven在其超过40年零售实践中并没有提及各种炫目的理念、趋势、方向等等,而是在身体力行实践目前零售所提倡各种本质:大数据、场景消费、满足消费者需求、消费体验等等。...面对当今中国消费者,中国零售商不但需要借助数据来分析,来洞悉数据背后逻辑、规律和趋势,同时也需要运用相关心理学知识来准确体察和把握消费者大众内心感受,真正站在消费者立场上考虑经营,这才是零售精髓所在

1.2K100

Flutter混编工程之轻量化改造

同时,Flutter轻量化改造也是对EngineGroup架构最佳实践EngineGroup架构下,我们需要将数据源放到原生侧,从而保证多Engine数据共享。...最后,Flutter轻量化改造,也是渐进式接入混编Flutter最佳方式,这种方式可以以比较小前期基建成本来快速接入Flutter来提高开发效率,同时在后期大量接入Flutter后替换为完全Flutter...❞ 轻量化下开发流程 使用Flutter开发业务需求时,首先需要在Flutter中创建相应路由名,然后main中配置相应业务页面,接下来即可进行正常Flutter业务开发,在网络请求等需要桥接原生地方...测试方法:Mock Native请求接口数据,替换为数据,获取数据后展示到界面上。...频繁请求场景 使用普通接口数据连续请求10次,目前常规开发中接口请求场景,大部分为1到3次,可以满足几乎目前所有的使用场景。

68410

Flutter 哈啰出行 B 端创新业务实践

时间线 Flutter 我们团队起步算是比较晚,直到 Flutter 要出 1.0 版本前夕才开始实践。...,解决这些规则上冲突,因为最终要求每一个 linter 警告都必须解决掉; 建立 最佳实践 积累方式,让团队每个人能避免他人踩过坑。...架构 2.0 优势 我们业务上存在很多模块,进去之后是,首页 -> 列表 -> 详情 -> 处理 -> 结果,大致会是连续打开 5 个 Flutter 页面的场景。...thrio iOS 上内存占用 同样连续打开 5 个页面的场景,boost 方案会消耗 91.67M 内存,thrio 只消耗 42.76 内存,模拟器上跑出来数据大致如下: demo 启动...Android 上页面打开速度 同样连续打开 5 个页面的场景,thrio 打开第一个页面跟 boost 耗时是一样,因为都需要打开一个 Activity,之后 4 个页面 thrio 会直接打开

68420

阴影中:Vawtrak(银行木马病毒)意图通过添加数据源使得自己更加隐蔽

原文发布时间:2015/10/01 原作者:Darien Huss & Matthew Mesa Dridex木马活动短暂停止同时,这个恶意软件背后犯罪人员立马去寻找(开发)交付渠道(攻击方法...转: 转: 诽谤诉讼 法院传票 9月22日 转: 转: 转: 财务报表 9月23日 转: 报价 价格清单 9月24日 来自2电子传真 传真 9月28日 来自...3电子传真 传真 9月29日 您有1个eVoice语音邮件(回复:) 语音信息 9月30日 您有1个eVoice语音邮件(回复:) 语音信息...并且凭证泄露过程中使用了相同编码方法。 [图 5] 根据所使用内容,LZMAT(开源极快数据压缩库)有时用于压缩在加密之前已泄露数据。...可以使用相同LCG相减算法对更新进行解码。包含更新一些DLL文件URL可以附录A中找到。 Web注入和窃取数据: Vawtrak功能与以前版本相似,涉及窃取数据和Web注入。

2.2K30
领券