PB级数据仓库新春采购_企业级云数据仓库新春采购_PB级数据仓库新春活动 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Snova数仓简介

Snova为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。借助于Snova，您可以在数分钟内创建拥有数百节点的企业级云端数据仓库，并高效的完成日常维护工作；也可以使用丰富的Postgre开源生态工具，实现对Snova中海量数据的即时查询分析、ETL处理及可视化探索；还可以借助其云端数据无缝集成特性，轻松分析位于COS、CDB、ES等数据引擎上的PB级数据。

02

大数据技术的发展趋势

大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。这些技术下一步将如何发展？它们之中哪些技术将广为流行？又会诞生哪些新的技术？

04

您找到你想要的搜索结果了吗？

是的

没有找到

十二个经典的大数据项目

1，离线数据处理：项目内容为通过对网站访问日志的采集和清洗，结合数据库中的结构化用户数据，统计并展示网站的PV、UV情况，以对网站的运行情况进行监控。通过此项目，回顾并串联前面讲述的离线数据处理相关技术，如：FIune、Sqoop、Hive、Spark等，了解和掌握PB级数据离线处理的一般过程和架构。

02

Forrester发布云数据仓库报告：腾讯云大数据强势迈入竞争者行列

刚刚获悉，在全球研究机构Forrester最新发布了2023年第二季度《The Forrester Wave™: Cloud Data Warehouses》报告，吸引众多国际顶尖云数据仓库厂商参与其中，腾讯云以全栈云原生数据仓库解决方案成功入选 “竞争者”阵营，成为国内唯二入选的云厂商。

03

2021年大数据Hadoop（三）：Hadoop国内外应用

Yahoo是Hadoop的最大支持者，Yahoo的Hadoop机器总节点数目已经超过42000个，有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点（每个节点双路4核心CPUboxesw，4×1TB磁盘，16GBRAM）。总的集群存储容量大于350PB，每月提交的作业数目超过1000万个。

04

【学习】一文读懂大数据（上）

这是一本小书而不是一篇文章，因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉，变成一个熟知其概念和意义的“内行人”，所以它很棒！主要内容 ·1来自Wikibon社区的大数据宣言 ·2数据处理与分析：传统方式 ·3大数据性质的变化 ·4大数据处理和分析的新方法 4.1Hadoop 4.2NoSQL 4.3大规模并行分析数据库 ·5大数据方法的互补 ·6大数据供应商发展状况 ·7大数据：实际使用案例 ·8大数据技能差距 ·9大数据：企业和供应商的下一步

06

极客说--新一代大数据技术：构建PB级云端数仓实践

在现代社会中，随着4G和光纤网络的普及、智能终端更清晰的摄像头和更灵敏的传感器、物联网设备入网等等而产生的数据，导致了PB级储存的需求加大。

06

共建多云时代数仓新生态，华为数据存储+HashData带来了什么？

多云的兴起，源于用户应用对于基础设施、云服务功能、安全性等的差异化需求，用户希望根据需求将应用、数据因“云”制宜，实现业务的高度灵活性和高效性。这也直接驱动着云原生数据仓库等一批云原生应用的流行，以及存储等基础设施加速走向变革。

01

腾讯云数据仓库 PostgreSQL：使用python将linux日志导入数据仓库

通过官网我们知道，snova可以使用PostgreSQL工具，因此，如果想要将linux日志导入snova数据仓库，只需要调用 python3 中的 psycopg2 模块（该模块，仅python3.x可用）。

2016年大数据和分析市场的21个趋势预测

导读：随着社交媒体、移动化和云计算的发展，数据分析及相关的技术已经作为一款具有颠覆性的技术在这个数字时代占有了一席之地了。在过去的2015年中，我们已经看到对大数据的分析利用正被一股强大的利用新的数据

07

【案例】农业银行大数据平台项目——海量数据复杂运算处理

数据猿导读随着数据量的不断增大、接入的系统越来越多，系统加工效率逐步降低，满足内部数据分析和监管机构的监管数据不断增加的需求，农业银行在2013年开始建设完全自主可控的大数据平台。本篇案例为数据猿

关于数据仓库的架构及3大类组件工具选型

关于数据仓库的概念、原理、建设方法论，网上已经有很多内容了，也有很多的经典书籍，本文更想聊聊企业数据仓库项目上的架构和组件工具问题。

01

运营数据库系列之可访问性

这篇博客文章是CDP中Cloudera的运营数据库（OpDB）系列文章的一部分。每篇文章都会详细介绍新功能。从该系列的开头开始，请参阅CDP 中的 Operational Database 。

01

【观点】大数据，真不是概念炒作

刚开始，以为大数据概念，只是数据仓库、数据分析改头换面后的一次作秀，只是商业智能、数据挖掘乔装打扮后的一个噱头。本想无视它的热烈炒作和美丽包装，用挑剔的眼光审视它的思想核心。最终发现，它的横空出世，包涵着真知灼见。大数据，涵盖了从数据采集、数据处理，到数据分析、数据挖掘的全过程。大数据最根本的推力，来源于技术突破。尤其是内存容量、存储介质、网络速度、CPU性能的集体突破和胜利会师。大数据最根本的拉力，来源于应用需求。尤其是KB、MB、GB，到TB、PB、EB，到ZB、YB、BB的几何级数膨胀的信息量

05

OushuDB 学习经验分享（一）

学习OushuDB的之前需要了解下这个产品的大致情况。OushuDB属于OLAP数据库，是新一代云原生数据仓库。该产品采用了存储与计算分离技术架构，具有MPP的所有优点，同时还具有弹性，支持混合工作负载和高扩展性等优点。同时支持公有云与私有云。高可扩展，遵循ANSI-SQL标准，具有极速执行器，提供PB级数据交互式查询能力。并且提供对主要BI工具的描述性分析支持和高级机器学习功能。兼容主流数据库的数据分析应用。并且原生支持Kubernetes容器平台，帮助企业无缝迁移到最新的云计算平台。OushuDB已在金融、电信、制造、医疗和互联网等行业得到广泛的部署和应用。

02

数仓建模 - 维度 vs 关系

数据管理一直在演进，从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主，而随着互联网的发展，数据从GB到PB的裱花，企业业务迭代更新亦是瞬息万变，对维度模型的偏爱渐渐有统一互联网数仓建模标准的趋势。

03

一文读懂大数据：Hadoop，大数据技术及相关应用

你想了解大数据，却对生涩的术语毫不知情？你想了解大数据的市场和应用，却又没有好的案例和解说？别担心，这本来自Wikibon社区的小书想要帮你。

02

【DBMS 数据库管理系统】数据库体系化环境 ( 数据库体系化环境简介 | 四层体系化环境 | 数据集市 )

组成的完整的 “数据环境” ; 并在该 “数据环境” 上建立和进行企业或组织的从

00

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品，平台打造了“听、看、玩”的立体泛音乐娱乐生态圈，为累计注册数在8亿以上的用户提供多元化音乐生活体验，畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后，是每天万亿级新增音乐内容和行为数据，PB数据量级的数据计算服务。

02

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品，平台打造了“听、看、玩”的立体泛音乐娱乐生态圈，为累计注册数在8亿以上的用户提供多元化音乐生活体验，畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后，是每天万亿级新增音乐内容和行为数据，PB数据量级的数据计算服务。

数字化转型时代的企业数据新基建 | 爱分析报告

刚刚过去的21世纪的第二个十年，是消费互联网蓬勃发展的十年，也是云计算、大数据、人工智能等新一代信息技术，即“数字化技术”快速崛起的十年。

02

今天，Amazon消费业务彻底弃用了Oracle数据库

今天，AWS首席布道者Jeff Barr在其博客上透露，Amazon消费者业务正式完成了对Oracle数据库的迁移工作，关闭了最后的Oracle数据库。Amazon将近7500个Oracle数据库、75 PB级数据库全部迁移到AWS数据库服务，包括Amazon DynamoDB，Amazon Aurora，Amazon Relational Database Service（RDS）和Amazon Redshift。

02

详细对比后，我建议这样选择云数据仓库

以数据洞察力为导向的企业每年增长 30% 以上。数据有助于公司排除决策错误。团队可以利用数据结果来决定构建哪些产品、增加哪些特性以及追求哪些增长。

01

构建企业现代化数据平台，从“智能湖仓”开始｜Q推荐

2021 年初，在 InfoQ 全年技术趋势展望中，数据湖与数据仓库的融合，成为大数据领域的趋势重点。直至年末，关于二者的讨论依然热烈，行业内的主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控；行业内的主要共识点则是二者结合必能降低大数据分析的成本，提高易用性。

03

大数据史记2013：盘点中国2013行业数据量（上）

说人类步入了信息时代，有个事情是非常重要的，就是物理世界的信息化，包括信息基础设施建设和数字化，紧接着就是如何将数字化的东西（数据）进行储存、传输、交换以及使用，这一脉络伴随着移动互联网，云计算、大数据以及各种各样智能终端的出现，显得也越来越清晰。很多人都已认可，我们可能来到一个工业革命之后，一个比我们想象地更加重要的变革时代，我们把它命名为产业互联网的时代。毕竟这一切都是互联网出现之后才发生的，无论是云，通过网络随需调用的计算资源；大数据，关联的可分析在线数据；还是各种智能终端，都要依托互联网。

07

30岁，5月无情被辞：想给搞数据的提个醒！！

在知乎看见了一个数据分析师的真实经历，忍不住唏嘘。图片截自知乎原文太长，简单概括一下：楼主是香港城市大学的硕士，在银行工作四年后想跳槽，但因为能力不符合公司的招聘要求，总是一面就挂了。有人说行业人才饱和，竞争激烈；也有人说楼主简历写得笼统，不够亮眼；但最主要的原因其实是：没有建立起自己的技术护城河。有很多公司的数据分析岗，入职之后每天都在取数、取数、取数，成了货真价实的crud/sql boy。这样的岗位即使工作十年，能带来的成长也极其有限。如果自己不能精通一套有门槛的硬技术，不能和新人拉开差

01

MESA：谷歌揭开跨中心超速数据仓库的神秘面纱

大数据文摘翻译:于丽君／校对:瑾儿小浣熊(转载请保留) 摘要：谷歌近期发表了一篇关于最新大数据系统的论文，是关于Mesa这一全球部署的数据仓库，它可以在数分钟内提取上百万行，甚至可以在一个数据中心发生故障时依然运作。谷歌正在为其一项令人兴奋的产品揭开面纱，它可能成为数据库工程史上的又一个壮举，这就是一个名为Mesa的数据仓库系统，它可以处理几乎实时的数据，并且即使一整个数据中心不幸脱机也可以发挥它的性能。谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示其关于Mesa的论文。该篇论文的

Mesa——谷歌揭开跨中心超速数据仓库的神秘面纱

点击标题下「大数据文摘」可快捷关注大数据文摘翻译翻译/于丽君校对/瑾儿小浣熊转载请保留摘要：谷歌近期发表了一篇关于最新大数据系统的论文，是关于Mesa这一全球部署的数据仓库，它可以在数分钟内提取上百万行，甚至可以在一个数据中心发生故障时依然运作。谷歌正在为其一项令人兴奋的产品揭开面纱，它可能成为数据库工程史上的又一个壮举，这就是一个名为Mesa的数据仓库系统，它可以处理几乎实时的数据，并且即使一整个数据中心不幸脱机也可以发挥它的性能。谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示

06

四大银行（工建农中）大数据进展如何？

中国建设银行信息技术管理部资深经理林磊明 ▼ ▼ 1、银行压力越来越大从十二五走到十三五期间，银行业面临的各方面的压力越来越大，从我们的年报数字可以看出去年四大行的利润增长基本上趋近于零增长。在这样

04

【揭秘】中国四大银行的大数据应用已到了哪个阶段？

对于大数据给企业带来的价值，已经毋庸置疑。在国内，银行业应该是IT建设更为领先的行业之一。特别中、农、工、建四大银行，更是走在整个银行业的前面。那么，他们对于大数据是如何看待的?在这四大银行，大数据的

03

4960 万元、贵州农信（GaussDB、服务器、操作系统）：华为是赢家

2021年8月20日，贵州农信行社数据仓库软硬件采购项目单一来源采购公示发布。拟采购商品信息：行社数据仓库软硬件（GaussDB数据库及大数据软件License部分）采用单一来源采购方式的原因及相关说明：大数据平台由贵安迁移至观山湖数据中心时，使用了华为泰山服务器和大数据产品，用于搭建观山湖数据中心大数据平台。现由于数据量增长大数据平台需进行扩容，鉴于后续应用扩展及行社数仓项目建设，为保持服务延续性及前后软硬件产品的一致性，同时考虑到系统兼容性，便于投产后运维，拟继续采购华为系列产品用于扩容大数据平台

04

【分享】数据仓库成熟度模型

我们中的许多人都曾经多年从事数据仓库管理工作。有些人做出了战略性的系统，让用户和企业高管十分满意。有些人则在为维持企业持续投入支持数据仓库项目挣扎，同时他的用户却在拼命要求更好更准确的信息。

03

Apache Doris在蜀海供应链的实践

最早接触Doris是在2020年初，当时是为了解决在海量数据上实时高并发查询的问题，当时调研了很多框架，在使用这Doris之前我的架构和其他公司的架构基本差不多，Hadoop，Hive，Spark，Presto，但是这些都满足不了我的需求，在调研Clickhouse的时候，发现了Doris，看网上介绍从性能、并发性及易用性上都非常好。在深度做了测试之后给我的是更大的惊喜，我之后就将我的架构全部转向以Doris为核心去构建。同时也深度参与到社区，提了一些RP去改进Doris。

03

一篇文章搞懂数据仓库：数据仓库的8个发展阶段

数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究，该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。第一次，MIT的研究员将业务系统和分析系统分开，将业务处理和分析处理分成不同的层次，并采用单独的数据存储和完全不同的设计准则。同时，MIT的研究成果与80年代提出的信息中心（InformationCenter）相吻合：即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。但是限于当时的信息处理和数据存储能力，该研究只是确立了一个论点：这两种信息处理的方式差别如此之大，以至于它们只能采用完全不同的架构和设计方法。

03

数据湖如何为企业带来9%的高增长？可否取代数据仓库？

数据湖是一个集中的存储库，允许您以任何规模存储所有结构化和非结构化数据。您可以按原样存储数据，而不必首先构造数据，并运行不同类型的分析—从仪表板和可视化到大数据处理、实时分析和机器学习，以指导更好的决策。

02

关于数据仓库的数据模型的思考

任何需求均来源于业务 , 业务决定了需求 , 需求分析的正确与否是关系到项目成败的关键所在 , 从任何角度都可以说项目是由业务驱动的所以数据仓库项目也是由业务所驱动的。

03

国外、国内Hadoop的应用现状

摘要：Hadoop是一个开源的高效云计算基础架构平台，其不仅仅在云计算领域用途广泛，还可以支撑搜索引擎服务，作为搜索引擎底层的基础架构系统，同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国外、国内Hadoop的主要应用现状。

02

CDH迁移 | 教你三步实现CDH迁移到星环TDH

Transwarp Data Hub（TDH）是星环科技自主研发的企业级一站式多模型大数据基础平台，其领先的多模型技术架构提供统一的接口层，统一的计算引擎层，统一的分布式存储管理层，统一的资源调度层，以及异构存储引擎层。8种异构存储引擎可以支持包括关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型。存算解耦特性支持弹性扩展，让资源配置更灵活。

01

漫谈大数据 – 基于SparkSQL的离线数仓

我们来做一个抽象，可以把数据仓库分为下面三个层，即:数据运营层、数据仓库层和数据产品层。

02

推动数据仓库现代化的七个共同挑战

企业数据仓库平台的所有者面临许多常见挑战。在本文中，我们着眼于七个挑战，探讨对平台和业务所有者的影响，并强调现代数据仓库如何应对这些挑战。

03

【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )

数据仓库与操作系统分离 , 基于标准的企业模型集成 , 带时间属性 , 面向主题 , 不可更新的数据集合 ;

00

【极客说直播第二期回顾】新一代大数据技术：构建PB级云端数仓实践

在数据大爆炸时代，随着企业的业务数据体量的不断发展，半结构化以及无结构化数据越来越多，传统的数据仓库面临重大挑战。通过以Hadoop, Spark为代表的大数据技术来构建新型数据仓库，已经成为越来越多的企业应对数据挑战的方式。

数据仓库建设之数仓架构

大家好，不管是离线数仓与实时数仓，建设的时候都少不了架构设计，今天来学习一下常见的架构及发展演变过程。

03

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

☞ 03.OLAP引擎 [ Kylin Druid Presto Impala Kudu ADB ES .. ]

02

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

数据应用，是真正体现数仓价值的部分，包括且又不局限于数据可视化、BI、OLAP、即席查询，实时大屏，用户画像，推荐系统，数据分析，数据挖掘，人脸识别，风控反欺诈等等。

03

历数大数据领域不可忽视的十大巨头

Forrester将AWS称为“云霸主”，谈到云计算领域的大数据，那就不得不提到亚马逊。该公司的Hadoop产品被称为EMR(Elastic Map Reduce)，AWS解释这款产品采用了Hadoop技术来提供大数据管理服务，但它不是纯开源Hadoop，经过修改后现在被专门用在AWS云上。 Forrester称EMR有很好的市场前景。很多公司基于EMR为客户提供服务，有一些公司将EMR应用于数据查询、建模、集成和管理。而且AWS还在创新，Forrester称未来EMR可以基于工作量的需要自动缩放调整大

08

天津农商银行数据仓库Netezza替换项目：单一来源 GBase 8a MPP Cluster

2021年8月17日，天津农商银行发布《数据仓库Netezza替换项目-国产化数据库软件项目》单一来源采购的公示：拟采购内容：采购数据库集群系统 GBase 8a MPP Cluster软件拟采购供应商名称：天津南大通用数据技术股份有限公司申请理由：结合此前我行对多家国产分布式数据库的POC测试结果，为了保证我行能采购到理想的国产数据库软件，我行将与天津南大通用数据技术股份有限公司进行单一来源采购。 2021年8月10日，天津农商银行发布《数据仓库迁移项目》单一来源采购的公示：拟采购内容：数据仓库迁

02

数仓分层理论_多元分层理论

在实际工作中，数仓分层、元数据管理、数据质量管理一直是一个持续优化的过程，我们公司业务也是在持续的做数仓的优化工作，在数据治理这方面还是欠缺很多的经验的。下面先简单整理了一下第一个理论部分的相关笔记。

03

在 CDP中使用Iceberg 为数据湖仓增压

我们很高兴地宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式，由Apache Software Foundation开发，帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg，包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML )）。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。作为 CDP 的一部分，公司无需付出任何努力即可获得 Iceberg 的好处。不再有锁定、不必要的数据转换或跨工具和云的数据移动，只是为了从数据中提取洞察力。

01

数据集成如何超越ETL而不断发展

谈到数据集成，有些人可能想知道有什么可讨论的——这不就是 ETL 吗？也就是说，从各种数据库中提取、转换并最终加载到不同的数据仓库中。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭