0x00 前言 学的越深越能体会到自己的无知,理解的越深刻越不敢张口说自己是搞这一行的。 把之前写的数据仓库系列博客,汇总和整理成了一本更系统的小书《Data Warehouse in Action》。 0x01 大数据和数据仓库 16 年开始接触数据仓库,至今有一年半的时间,中间换了次工作,也算是在两家公司实践了数据仓库。在此随便写一点关于大数据和数据仓库的东西。 其实,很多时候大数据和数据仓库这些都是一些概念使然,个人不太认为某一个概念比另一个概念厉害多少,大家是你中有我我中有你的关系。 就拿大数
0x00 前言 本篇是《你了解你的数据吗》的第五篇,在前面的几篇文章中,我们聊到了数据接入量、数据的坑、数据核心维度分布、数据口径和数据质量监控。本篇将引入一个新的概念:数据血缘分析 ,或者叫血统分析。 0x01 血缘分析 那么什么是数据血缘分析呢?在这里我们不给出它的严谨的定义,仅从感觉上来解释一下这个东西。 数据血缘,我们可以大致理解为是一个表的生成过程。它依赖了哪些表,怎么生成的。同时加上它依赖的表又是怎么生成的。 觉个栗子 下面举个栗子来解释一下。 现在假设你是一只数据开发工程师,为了满足一次
0x00 前言 整理一些数据仓库中的常用概念。大部分概念不是照搬书上的准确定义,会加入很多自己的理解。 0x01 概念 数据仓库(Data Warehouse) 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 个人理解,数据仓库不单单是一个概念,其实算是对数据管理和使用的一种方法论,它包括了如何合理地收集数据、如何规范的管理数据、如何优雅地使用数据,以及任务调度、数据血统分析等一系列内容。 在大数
快速判重:布隆过滤器。 给定数据排序: 1.常见排序算法 2.BitMap 算法, 数据量小的时间复杂度、空间复杂度比较大如(10、122、10万)。但是适应于密集的情况,有明显优势。
内存对于用户来说就是一个字节数组,我们可以根据地址来访问到某个字节或者某些字节:
软件测试,说的直白就是找bug,而针对的就是我们使用的一些app,网页,系统等等。与之而来的还有硬件测试,这里不详细阐述。
5岁学编程,7岁上YouTube发编码和网络开发教程,8岁开发iOS应用程序,9岁APP被苹果上架,11岁发现IBM公司的bug,12岁出了一部iOS编程书籍。今年,刚满14岁的他正准备出第二部有关AI的书……
ZooKeeper 是一种分布式协调服务,用于管理大型主机。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper 通过其简单的架构和 API 解决了这个问题。ZooKeeper 允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。
Zookeeper的数据模型是什么样子呢?它很像数据结构当中的树,也很像文件系统的目录。
一、前言 模式是一种规律或者说有效的方法,所以掌握某一种实践总结出来的模式是快速学习和积累的较好方法,模式的对错需要自己去把握,但是只有量的积累才会发生质的改变,多思考总是好的。(下面的代码实例更多是 React 类似的伪代码,不一定能够执行,函数类似的玩意更容易简单描述问题) 二、前端的关注点迁移 这篇文章主要介绍现在组件化的一些模式,以及设计组件的一些思考,那么为什么是思考组件呢?因为现在前端开发过程是以组件为基本单位来开发。在组件化被普及(因为提及的时间是很早的或者说有些厂实现了自己的一套但是在整个前
公司采用了H5和Android混合开发,以原生代码为壳,H5代码编写逻辑的方式做产品。笔者之前写过一篇文章简单聊到了这种方式,有兴趣的朋友可以了解一下,顺便点个赞。Android原生与H5通信 而在这种方式的使用过程中笔者碰到了一个问题,偶然性的会出现广告,各种各样的广告。并且不是必然触发。 通过查询各种资料(其实就是百度)。发现问题应该只会出现在以下三种情况内:
2018年欧瑞博率先推出智能中控屏Mixpad S,作为一款电工类产品,屏元素的引入让传统智能开关突然间有了更多的想象空间。
闭上眼睛,你就是全世界,全世界就是你,冥想。。。了解一下风的流动,感受一下风的温度。。。
好久没写文章了,因为最近的实在是太忙了,看到这一期的征文,不禁让我回想起了当初刚毕业的那个自己,一时之间感慨万千。
(80%,因为还有另外3种金额) 阳光普照顶配 iPhone XS MAX(其实每年都是)
快轮也会利用自身的技术及产品研发优势,不断强化自身的技术平台,将出行变得更加智能。
身处这个行业,经常看到各种国产ERP光怪陆离的宣传文章,最大的特点就是极度自信,吹嘘自家系统是经过多少人的团队历经多少日日夜夜迭代了多少次开发了多少行代码,然后实现了国产ERP历史性的飞跃,达到国际先进和国内领先水平,更搞笑的是还找了好多院士级别的人来共同认证签名——已经可以完全替代SAP系统了。
艾润-停车王 艾润物联是一家专注于“互联网+”智能停车场管理服务的科技创新型企业, 发明和研发了基于物联网技术的“互联网+智能停车4.0系统”, 针对传统停车场管理难、效率低和收费失控等问题,提供行业集成解决方案, 为停车场的管理者和使用者提供多种移动终端管理及平台化的运营服务, 提供停车场智能管理系统与其他信息化系统之间的互联互通和个性化的服务。 PHP/golang/python开发,产品经理 来西安,来艾润 茶梦九里 一对高中同学,为了一杯哪怕给家人和朋友能放心的茶, 按“别人家傻孩子”的标准坚守着自
win12太离谱了,win11还没用几天,win12就已经出来了,如此流畅的页面,很具有和苹果一拼的效果,流畅度也是一流。
首先,我们结合《SRE Google 运维解密》,通过梳理监控系统的脉络,知道一旦离开了监控系统,我们就没法辨别一个服务是不是在正常提供服务,就如同线上的服务在疯狂裸奔。
上周末跟几位朋友小聚,大家聊起了自己的职业发展,也令我稍稍回忆了一下这些年在企业架构和业务架构上的经历,其实我一直认为自己是运气好,当然,我并非不努力。
80 90后想被清北复交等名校保送 如果没有学霸体质 大概会想到 “新概念作文” “国际奥数联赛” “全国物理竞赛” 当这届00后渐渐长大 保送也有了新玩法 “信息学奥赛”新鲜出炉 成为了大热的名校保送通道 80 90的叔叔阿姨们不禁挠头 “信息学”是啥 研究情报吗? Emmmmmm 用“out”来形容你 都觉得有些太“out”了 别人家的“神童”:靠编程提前被名校锁定 鹅老师先来科普一下,信息学奥赛可不是搞什么卧底情报,其实就是中小学生的编程竞赛。当孩儿爸妈还在感慨“敲代码”竟有如此神力
今天更新一篇文章,往期《人工智能设计师系列》,可查阅: 人工智能设计师之智能排版的另一种实现方式 电影封面海报个性化推荐+人工智能设计师 聊聊人工智能建筑师 人工智能设计师之智能排版v0.0.3 人工智能设计师v0.0.2 人工智能「 服装设计师 」中 人工智能「 服装设计师 」上 DIY一个人工智能设计师v1.0之风格迁移能力 DIY一个人工智能设计师_v0.0.1 利用“以图搜图”我们可以赋予人工智能设计师“模仿”的能力。本文基于 DIY一个以图搜图引擎1 的思路,把数据集换成了unsplash爬下
战略设计有严谨而漫长的操作方式,也有可以快捷执行的操作方式。对于大型企业而言,由于其业务和组织的复杂度都比较高,因此可以考虑进行相对复杂的战略管理。对快捷操作方式更感兴趣的读者,笔者也建议您先多点耐心,了解一下完整的战略设计如何开展,再看如何便捷操作,这样也许可以为实际执行提供更多的参考。
上周四至今,我大概有 50-70% 的时间在造一个轮子,一个叫 merlin 的工具。 事情的起源是这样的 —— 我们内部的一个重要服务,要升级到 elixir 1.5。之前这个服务的 ansible 部署代码大概是这样的:在目标机器上 clone 代码,编译,生成一个符合 systemd 的 release,更新 systemd 配置,重启服务。那位说:如果一个 cluster 里有几十台机器,每台都这么 build,费时费力,中途出问题的几率也增大很多啊 —— 为什么不直接在 CI 工具,比如 trav
乐乐作为一个热爱工作的当代好青年,自然是依然坚守在工作岗位上,为你们送来其他公司的祝福贺电!
很多同学也许会问,bar图有什么难的,我科研论文做第一张图就是bar图,so~so~easy。
大家好!昨天的案例分析,我们过了一把瘾,今天我们集中精力再来讲一个相对复杂的关于二维数据排序的案例。
《数字化转型的本质》中,分享了数字化转型的三个阶段分别是数字化(业务流程信息化&线上化)、数据化、智能化,有了第一阶段的数据输入后,后面的两个阶段都是围绕数据展开,数字化转型想要最大程度地发挥其价值,比如要充分挖掘数据的价值。今天,就来看下在数字化转型的过程中,涉及数据工作的主要内容。
区块链就是很多的区块按一定顺序连接。这些区块分散地存储在世界各地的电脑主机中,也就是“分布式”特征。虽然这些单个计算机都是处在风险环境中,但是因为数据分布在无数个主机中,这就保证了数据是不能少数人控制或者篡改的。每一个区块都是一个数据集。
0x00 前言 本篇分享是元数据管理的内容,主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin 在2016年新开源的项目:WhereHows,当然也有笔者的一点理解。 Google 的论文整体描述十分详细,可以作为理论来学习,LinkedIn 已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思路的。 不太清楚 Google 和 Linkedin 真实的系统做成什么样,是不是像 Gfs 那样自己已经
由于之前已经尝试使用过 EF CodeFirst CTP4,所以这次在EF4.1发布的第三天,在 OEA 框架中已经支持使用它来实现数据访问层。而且,我们准备逐渐把原有的较量级ORM框架给替换掉,并且使用EF中的元数据系统来完全充当 OEA 中的 ORM 元数据,以便使用这些映射信息来实现一些更多的操作。由于还没有时间把整个 EF 的 MSDN 拿下,所以暂时只是在网上看了一些相关的文章。而最近又正好在重构 OEA 框架的元数据子系统,所以,这篇文章里,我主要对 EF 的元数据进行一个简单的分析。
最近,一场“大GAN(BigGAN)”浪潮让机器学习界的行家沸腾了一次。看到这个生成图片质量足以以假乱真的神经网络,网友齐声称赞“算法好棒”。
Google的论文整体描述十分详细,可以作为理论来学习,LinkedIn已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思路的。 标题有点吸引人眼球的嫌疑,不过内容的确是从这两个
本文引用了后端技术指南针公众号“浅谈RPC那些事儿1”和即时通讯网的“即时通讯新手入门:快速理解RPC技术——基本概念、原理和用途”两篇文章的部分内容。
1989年,Tim Berners-Lee (伯纳斯-李)提出要建立一个全球超文本项目——万维网(WWW),让所有人都能顺利地从网上获取并共享信息。他肯定没有意料到自己的构想会影响到未来人类文明发展的进程。他肯定也没有想到,在32年后,他却要为互联网的过度中心化现状感到深深的忧虑。
元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。这么说对于没有技术背景的人来说还是比较抽象的,我给大家举几个例子。
大噶好,我系乐乐。 开始今天的功能大放送前, 想问大家一个问题—— #在你公司里,新员工入职都有什么流程呀?# 接下来这两家企业,就用乐享拓展了很多【新人入职】玩法~ UR专门建了一个K吧,做了一个迎新的总部新人报道站—— ▲本图企业已授权 银盛科技则是将整套新员工培训章节课程都放在了乐享课堂上~ ▲本图企业已授权 一共10课,从集团介绍到生产安全,分为系列微课,新人也能学习的无压力~ 没错,章节课程已上线 我们的课堂应用全新升级啦! 更新功能概要 支持上传格式更丰富的课程素材,包括
元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。
最近设计的几款芯片,都因为出光角过大被砍了,特别对于multiple Emitter的激光芯片。
在之前的两个章节中,我们主要讨论了数据库的两个比较重要的知识——事务和索引。猿人工厂君也知道,内容对于新手而言,理解起来还是比较很吃力的,文中提到的原理和内容,有兴趣的可以和我一起探讨,猿人工厂君就不一一赘述了。今天我们会开始一个新的话题。
浙江大学和微软的新研究证明,从0开始学习你的声音到准确逼真,AI只需要200个音频片段和相应标注,20分钟的素材就足够了。
最近Gartner在研究报告里明确指出,“元数据管理将是未来企业信息化的核心基础设施”。确实,在大数据环境中,如果企业不通过元数据管理把多种复杂的信息管理起来,很难做到信息的有效利用。但是,很多企业逐渐发现元数据管理直接给企业业务创新带来的价值非常有限。目前的元数据管理现状是什么?如何充分释放元数据管理的业务价值?有哪些实践经验可以借鉴? 目录: 一、现状分析:孤独的企业元数据管理 二、解决方案:面向业务释放元数据价值 三、技术实践:普元的企业元数据管理实践 一、现状分析:孤独的企业元数据管理 元数据管理不
在这个阶段,我们假设系统需要处理 50 万用户和 3000 万首歌曲。我们将有播放歌曲的用户和上传歌曲的艺术家。
Netflix Drive是一个多接口、多OS的云文件系统,旨在为设计师的工作站提供典型的POSIX文件系统和操作方式。
作者 | 高昌健 当提到文件系统时,大部分人都很陌生。但实际上我们几乎每天都会使用它。比如,大家打开 Windows、macOS 或者 Linux,不管是用资源管理器还是 Finder,都是在和文件系统打交道。如果大家曾经手动安装过操作系统,一定会记得在第一次安装时需要格式化磁盘,格式化时就需要为磁盘选择使用哪个文件系统。 维基百科上的关于文件系统 [1] 的定义是: In computing, file system is a method and data structure that the
滴滴出行创立于 2012 年,是全球领先的一站式多元化出行平台。经历过各种烧钱补贴大战、多次合并,滴滴成为继阿里之后,国内第二个日订单量超过千万的公司。
领取专属 10元无门槛券
手把手带您无忧上云