腾讯大数据的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

腾讯大数据的专栏

专栏成员

328

文章

479294

阅读量

125

订阅数

大索引技术，大数据的未来

大数据存储容器镜像服务 hive spark

不管你信也好，不信也好，大数据时代真的来临了，随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间，攻陷了全部的大数据阵地。那么传统的关系型数据库的一些思路，真的没有用武之地了么？真的就一去不复返了么？当大数据技术大旗在每个山头摇摆的时候，我们躲在角落里还能做些什么？“索引”，没错，数据库时代的必杀，大数据的利器。当大数据使用上大索引后有什么好处？ 1. 索引技术大幅度的加快数据的检索速度。 2.

腾讯大数据

2023-03-04

2970

实时湖仓一体规模化实践：腾讯广告日志平台

spark 日志数据存储数据湖文件存储

1. 背景 1.1 整体架构腾讯广告系统中的日志数据流，按照时效性可划分为实时和离线，实时日志通过消息队列供下游消费使用，离线日志需要保存下来，供下游准实时（分钟级）计算任务，离线（小时级/天级/Adhoc）分析处理和问题排查等基于日志的业务场景。因此，我们开发了一系列的日志落地处理模块，包括消息队列订阅 Subscriber，日志合并，自研 dragon 格式日志等，如下图所示： Subscriber：Spark Streaming 任务，消费实时数据，落地到 HDFS，每分钟一个目录，供下游准实时

腾讯大数据

2022-09-20

1.1K0

Firestorm 0.2.0发布：首个支持混合存储的开源Remote Shuffle Service

文件存储 spark 缓存数据分析性能测试

01 背景 Firestorm自2021年11月上线开源 0.1.0 版本后，该项目受到了业界的广泛关注。 Firestorm是为了加速分布式计算引擎能上云的重要组件，同时也能解决在大Shuffle场景下，计算任务由于Shuffle过程异常而导致的任务失败。（更详细的背景可以参考此文[Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践]）目前Firestorm迎来了0.2.0 版本的正式发布，而Firestorm也成为了第一个支持混合存储的开源Re

腾讯大数据

2022-02-15

1.4K0

Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践

spark serverless 大数据存储 sql

图片来源：pexels 背景 Firestorm Shuffle是分布式计算框架用来衔接上下游任务的数据重分布过程，在分布式计算中所有涉及到数据上下游衔接的过程都可以理解为shuffle。针对不同的分布式框架，shuffle有几种实现形态：基于文件的pull based shuffle，如MapReduce、Spark。这种shuffle方式多用于类MR的框架，比如MapReduce、Spark，它的特点是具有较高的容错性，适合较大规模的批处理作业。由于实现的是基于文件的shuffle方案，因此失败

腾讯大数据

2021-11-19

3.1K0

腾讯大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

hadoop 开源 spark apache 腾讯云测试服务

近日，由腾讯大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。经过2年多的社区持续开发和腾讯内部1000+节点的实际落地验证，Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。 Ozone 是Apache Hadoop社区推出的新一代分布式存储系统，它的出现满足了大量小文件的存储问题，解决了Hadoop分布式文件系统在可扩展性上的缺陷。作为Hadoop生态圈的一款新的对象存储系统，能够支持百亿甚至千亿级文件规模的存储。腾讯大数据团队Ozone项目负

腾讯大数据

2020-09-27

1.1K1

Angel 3.1：高性能图计算的三体艺术

编程算法 angel 数据结构 spark 机器学习

| 导语 Angel是腾讯首个AI开源项目，2019年在基金会的孵化过程中，完成了3.0版本的发布，并于同年在基金会顺利毕业。作为面向机器学习的第三代高性能计算平台，Angel提供了全栈的机器学习能力，并致力于解决高维稀疏大模型训练及大规模图数据分析的问题。我们看到在万物互连的复杂网络世界，现实中许多问题也可以抽象成图来表达，而金融支付、安全风控、推荐广告、知识图谱等业务积累了大量的图数据，亟需借助传统图挖掘、图表示学习和图神经网络等图分析技术，从海量关系结构的数据中挖掘丰富的信息，以弥补单点分析

腾讯大数据

2020-05-16

1.3K0

SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

云数据库 SQL Server sql spark 数据库 jdbc

导语：SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件，支持对接适配多类外部开源SQL执行引擎，如Spark、Hive等。背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件，满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件，实现以下三点的价值：解决业务数据孤岛，最大化数据的使用价值执行引擎最优选择，提升业务使用数据效率优化

腾讯大数据

2019-09-26

3.6K0

超50万行代码、GitHub 4200星：腾讯重磅发布全栈机器学习平台Angel 3.0

spark 编程算法推荐系统 pytorch https

【导读】腾讯首个AI开源项目Angel，正式发布一个里程碑式的版本：Angel 3.0。这是一个全栈机器学习平台，功能特性涵盖了机器学习的各个阶段，超过50万行代码，在 GitHub 上 Star 数已超过 4200，Fork 数超过 1000。一个全栈机器学习平台，近日悄悄上线了。 8月22日，腾讯首个AI开源项目Angel正式发布一个里程碑式的版本：Angel 3.0。 Angel 3.0尝试打造一个全栈机器学习平台，功能特性涵盖了机器学习的各个阶段：特征工程，模型训练，超参数调节和模型服务。

腾讯大数据

2019-08-26

1.2K1

四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍

spark 大数据数据处理

腾讯QQ有着国内最大的关系链，而共同好友数，属于社交网络分析的基本指标之一，是其它复杂指标的基础。借助Spark GraphX，我们用寥寥100行核心代码，在高配置的TDW-Spark集群上，只花了2个半小时，便完成了原来需要2天的全量共同好友计算。这标志着QQ千亿级别的关系链计算进入了小时级别时代，并具备复杂图模型的快速计算能力。问题描述共同好友数可以用于刻画用户与用户间的关系紧密程度，包括陌生人／熟人分析，好友亲密度，好友推荐，社团划分等各个方面，是社交网络分析的最基础指标。其计算逻辑非常简单明了

腾讯大数据

2018-01-29

2.6K0

Hadoop Raid-实战经验总结

hadoop 大数据 spark 系统架构

分布式文件系统用于解决海量数据存储的问题，腾讯大数据采用HDFS（Hadoop分布式文件系统）作为数据存储的基础设施，并在其上构建如Hive、HBase、Spark等计算服务。 HDFS块存储采用三副本策略来保证数据可靠性，随着数据量的不断增长，三副本策略为可靠性牺牲的存储空间也越来越大。如何在不降低数据可靠性的基础上，进一步降低存储空间成本，成为腾讯大数据迫切需要解决的问题。我们对facebook版本的hadoop raid分析发现，还有很多细节需要优化改进，本文就hadoop raid存在的问题进行探

腾讯大数据

2018-01-29

2.2K0

效果广告点击率预估实践：在线学习

机器学习 spark 大数据

1.引言技术钻研如逆水行舟，不进则退。公司的广告业务发展非常迅猛，有目共睹，激烈的外部竞争和客户越来越高的期望，都要求我们的技术不断进步；与此同时，我们也的确在生产实践中遇到了不少的技术问题和挑战，这些都促使我们在技术上不断的尝试突破。经过两年多时间的技术钻研和应用实践，同发表上一篇KM文章时的技术状态相比，团队和项目在技术架构和一些关键技术点上都向前迈进了一大步。我们打算通过几篇文章做一个简单的经验分享，这些文章会按照在线学习和深度学习两个技术方向做一个大致的划分。笔者会以两篇文章作为整个系列的开头，团

腾讯大数据

2018-01-29

8620

SparkInAction 图计算用户关系染色分析

spark 大数据

前言需求：如果一个用户使用了某个手机，这个手机上登录过其他的用户，那么这些用户是有关系的，同样用户关联到的用户又可以通过手机关联到其他用户这样就构成了一个强大的关系网。现在给出用户与手机登录关系表，请找出所有的用户是有关系的。问题分析整个用户手机关系网拓扑图如下图所示：从图中可以发现，找到有关系的关联的用户，就是要找出上面无向图的所有联通分支。比如上图有两个联通分支。测试数据集对应上图，测试数据集合如下： image.png 希望的输出结果为所有关联的用户对应同一个ID。测试代码

腾讯大数据

2018-01-26

1.3K0

腾讯大数据套件带你玩转大数据

大数据 spark

前言 ‍ 人类每一次大的技术变革都是先在新兴产业生根发芽，再慢慢把触角伸到传统行业。在当前这股由IT(Information Technology)向DT(Data Technology)转变的技术浪潮中，互联网行业成为云计算、大数据等高新技术的试验田。经过近十年的发展，随着大数据技术的不断成熟以及互联网应用案例的普及，"数据驱动业务"的模式逐渐得到各行各业的广泛认同，“互联网+”战略的提出更是为大数据从互联网向其他行业的传播吹来一阵东风。腾讯作为互联网企业的代表，早在09年就开始探索建设大数据平台，经过批

腾讯大数据

2018-01-26

1.9K0

一文教你看懂大数据的技术生态圈 Hadoop,hive,spark

mongodb spark 大数据机器学习 hadoop

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上

腾讯大数据

2018-01-26

1.5K0

飞起来的大象-Hadoop从离线到在线

数据库 hadoop 大数据 spark 存储

时代在变迁，市场在变化，周边的软硬件环境也突飞猛进般的发展，同时企业的业务需求也不断升级，从规模到成本都有较高的要求，这刺激Hadoop生态圈的变革。据AMR研究显示，到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下，各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快，顺应潮流，Hadoop生态圈也更为完善和成熟，更是划分出了子生态圈如Spark。正是在这样一个背景下，Hadoop的顺利度过了2014年。2014业内哪些事情值得关注1）大数据解决方案提供商hortonworks上市。大

腾讯大数据

2018-01-26

9990

主流大数据系统在后台的层次角色及数据流向

大数据 spark 云数据库 Redis 微信小程序音视频运维

最近有不少质疑大数据的声音，这些质疑有一定的道理，但结论有些以偏概全，应该具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解，需要真正了解之后才能得出比较客观的结论。大数据是一个比较宽泛的概念，它包含大数据存储和大数据计算，其中大数据计算可大致分为计算逻辑相对简单的大数据统计，以及计算逻辑相对复杂的大数据预测。下面分别就以上三个领域简要分析一下：第一，大数据存储解决了大数据技术中的首要问题，即海量数据首先要能保存下来，才能有后续的处理。因此大数据存储的重要性是毫无疑问的。第二，大数据统计是对海量

腾讯大数据

2018-01-26

6900

浅谈开源大数据平台的演变

机器学习数据库大数据 spark hadoop

一说到开源大数据处理平台，就不得不说此领域的开山鼻祖Hadoop，它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台，但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性，以及同时包含存储系统和计算系统，使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分的离线存储和离线计算需求，且性能表现不俗；小部分离线存储和计算需求，在对性能要求不高的情况下，也可以使用Hadoop实现。因此，

腾讯大数据

2018-01-26

1.2K0

相比Hadoop,如何看待Spark技术?

spark 大数据 hadoop

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了。 Sort和Shuffle是MapReduce上最核心的操作之一，比如上千个Mapper之后，按照Key将数据集分发到对应的Reducer上，要走一个复杂的过程，要平衡各种因素。Spark能处理Peta sort的话，本质上已经没有什么能阻止它处理

腾讯大数据

2018-01-26

5540

后Hadoop时代的大数据架构

hadoop 数据库 mongodb spark

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件。 HDFS：提供

腾讯大数据

2018-01-26

1.7K0

Hermes与开源的Solr、ElasticSearch的不同

大数据云数据库 SQL Server 数据库 spark 分布式

谈到Hermes的索引技术，相信很多同学都会想到Solr、ElasticSearch。Solr、ElasticSearch真可谓是大名鼎鼎，是两个顶级项目，最近有些同学经常问我，“开源世界有Solr、ElasticSearch为什么还要使用Hermes” 在回答这个问题之前，大家可以思考一个问题，既然已经有了Oracle、MySQL等数据库为什么大家还要使用ES下的Hive、Spark？ Oracle和MySQL也有集群版，也可以分布式，那ES与Hive的出现是不是多余的？ Hermes的出现，并

腾讯大数据

2018-01-26

1.8K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态