首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

湖仓一体详解

问题导读 1.什么是数据仓库、数据集市和数据湖? 2.湖仓一体化为什么诞生? 3.湖仓一体化是什么? 4.湖仓一体化的好处是什么? 0.沃尔玛纸尿裤和啤酒 在了解湖仓一体化之前,我们先来看一则有关数据仓库的有趣故事吧~ 沃尔玛拥有世界上最大的数据仓库系统,它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒!后来经过大量实际调查和分析,发现在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,这是因为美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。可见大数据其实很早之前就已经伴随在我们的日常生活之中了。 那么接下来我们就来了解一下湖仓一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据湖? 1.1 数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以大家设计了一套新的数据存储管理系统,把所有的数据全部存储到数据仓库,然后统一对数据处理,这个系统叫做数据仓库。而数据库缺少灵活和强大的处理能力。 在计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining),帮助决策者能快速从大量数据中,分析出有价值的信息,帮助建构商业智能(BI)。 尽管仓库非常适合结构化数据,但是许多现代企业必须处理非结构化数据,半结构化数据以及具有高多样性、高速度和高容量的数据。数据仓库不适用于许多此类场景,并且成本效益并非最佳。

02

企业级存储详解

近年来,云计算、大数据、人工智能、物联网等信息技术与产业快速发展,信息技术与传统产业的融合也不断加深,快速发展的数字经济已经成为我国产业转型升级和经济高质量发展的重要驱动因素。数据是数字经济的重要基础组成,信息技术也围绕数据的生产、加工、应用而展开。当前,企业和用户无时无刻都在产生大量的数据,数据中心等信息基础设施也在实时地存储和计算各类数据,网上购物、电子支付、工业互联网等数据应用场景更是随处可见。据IDC 预测,到 2025 年全球数据量将达到 163ZB,相当于 2016 年 16.1ZB 数据量的十倍。当前,数据的快速、高效、安全存储已经成为业界关注的焦点。

04

抛砖引玉:使用二进制位操作,解决铁道部火车票的数据查询和存储问题,超轻量级的解决方案

又到节假日,园子里面不少高人再次对12306网站的各种问题的各种分析和提出各种解决方案,我也看了这些讨论文章,出于也是一个买票难的“码农”,也来献计献言,把我跟其他人讨论的结果汇总发表一下,希望抛砖引玉,解决铁道部火车票的数据查询和存储问题。     现在,12306网站给人的第一感受就是购票过程网页很卡,不少人分析是由于数据库非常庞大,有复杂的查询和数据传输,并着重在数据库的设计方面大作文章,却很少有人在数据存储“量”上下功夫。或许大家都说现在磁盘那么便宜,还要刻意关注数据存储量的大小么?我觉得做

05

硬件知识:SSD越用越慢的原因,看完你就懂了!

从机械硬盘到SSD硬盘的升级,让无数PC用户感受到什么叫“丝滑流畅”。然而,使用一段时间以后,总会感到你的SSD有如下变化: 同样使用环境下,同款测试软件测得的磁盘性能降低;磁盘写入速度出现大起大落的速度波动; 启动、载入程序、文件的速度没有刚买时候流畅了;各种各样的系统运行迟滞感不断产生。 到底是什么原因导致上述情况呢?其实原因很简单,抛开硬件故障因素之外,主要有以下三点: 1、固态硬盘写入逻辑 SSD的数据写入方式不同于传统机械硬盘,崭新的SSD硬盘(也就是空盘)在进行测试、数据写入时,NAND芯片是空置的,可以直接写入,因此速度是最快的。 然而,在硬盘使用一段时间、尤其是写入大量数据之后,新载入的数据则需要由SSD主控进行可删除数据判断,然后进行空间擦除——复写流程,因此导致SSD使用后期的写入速度降低。为此,厂商会根据自家NAND、主控方案搭配不同的TRIM类技术。

01
领券