流图计算,一个基础软件领域攻坚难度极高的分支。行业首个工业级流式图计算引擎 TuGraph-Analytics,与目前世界范围内有记录的、最快的图数据库开源项目 TuGraph DB 来自于一家中国企业,这不仅仅解决了国产基础软件领域的一大难题,健全了开源生态,更重要的是向全球展示了中国的开源力量。
GeaFlow(品牌名TuGraph-Analytics) 已正式开源,欢迎大家关注!!! 欢迎给我们 Star 哦! GitHub👉https://github.com/TuGraph-family/tugraph-analytics
导读:随着企业数字化转型升级,线上业务呈现多场景、多渠道、多元化的特征。数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求。在庞大分散、高并发的数据来源背景下,数据的实时处理能力成为企业提升竞争力的一大因素。今天分享的是众安金融实时特征平台实践。
1981年,一群年轻人用红油漆把这12个字刷在三合板上,立在了刚刚成立不久的深圳特区蛇口工业园。
阿里妹导读:今年的双11,实时计算处理的流量洪峰创纪录地达到了每秒40亿条的记录,数据体量也达到了惊人的每秒7TB,基于Flink的流批一体数据应用开始在阿里巴巴最核心的数据业务场景崭露头角,并在稳定性、性能和效率方面都经受住了严苛的生产考验。本文深度解析“流批一体”在阿里核心数据场景首次落地的实践经验,回顾“流批一体”大数据处理技术的发展历程。
作者:仁基,元涵,仁重 本文选自:《尽在双11:阿里巴巴技术演进与超越》 近十年,人工智能在越来越多的领域走进和改变着我们的生活,而在互联网领域,人工智能则得到了更普遍和广泛的应用。作为淘宝平台的基石,搜索也一直在打造适合电商平台的人工智能体系,而每年双11大促都是验证智能化进程的试金石。伴随着一年又一年双11的考验,搜索智能化体系逐渐打造成型,已经成为平台稳定健康发展的核动力。 演进概述 阿里搜索技术体系目前基本形成了offline、nearline、online三层体系,分工协作,保证电商平台
2月12日是中国农历新年大年初一,也是 VMware CEO Pat Gelsinger 在公司的最后一天。转发他的离职感言视频。 Pat 在 2012 年出任 VMware CEO,之前曾是 Intel 的 CTO,但从未担任过 CEO 职位或具有软件行业经验。在 8 年多的任职期间,Pat 带领公司经历了从 Hypervisor 到 软件定义数据中心( SDDC ),再到现在多云 SaaS 的转型,VMware 的业务也增长了近 3 倍。他在视频中感谢了 VMware 每一位员工对他的支持,并且一如
目前很多业务使用事务型数据库(MySQL、Oracle)做数据分析,把数据写入数据库,然后使用 SQL 进行有效信息提取,当数据规模很小的时候,这种方式确实是立竿见影的,但是当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库里。发现对于实时性和变更性的需求,目前只有 Kudu 一种组件能够满足需求,所以就产生了这样的一种场景:
相信大数据人对这两年冉冉升起的新星 Flink 都不陌生,Flink是一款构建在数据流之上的有状态计算框架,通常被视为第三代大数据分析方案。
8月20日,比利时布鲁塞尔西南郊的St.Ghislaina小镇日前遭遇了强雷电天气,而这一恶劣天气的出现也让谷歌位于当地的数据中心不幸“躺枪”。
前言 TDW 是腾讯内部最大的离线处理平台,也是国内最大的 HADOOP 集群之一。在运营这么大集群的时候,运营面临各种各样的难题,在解决这些难题的过程中,团队提炼出来的一个运营理念,用两句话去描述。
作者 | 郑思宇 “Flink 已经成为全球范围内实时流计算的事实标准。”用这句话来描绘 Flink 在当前大数据技术领域的地位并不为过。 虽然大数据领域的技术和潮流方向在不断发生改变,但是 Flink 一直处于核心驱动的位置。从流式计算引擎的兴起,到流批一体在企业内部的落地,再到为实现端到端全链路的实时化分析能力而走向舞台中央的流式数仓,Flink 均在其中扮演着重要的角色。 以上每个过程的推进和实现都并不容易,Flink 到底是如何做到的?其背后的推动力是什么?凭什么受到全球企业和开发者的青睐?带着这
BethuneX数据库实时监控和智能巡检平台,首先它的初衷和愿景依然没有改变:成为数据库运维人员最喜欢使用的,并且能够帮助他们快速发现和解决数据库问题的智慧平台。BethuneX的目标,始终是简化那些繁琐的操作或者问题分析,精确且直指数据库问题核心,灵活应对各种业务场景,因此它的主要功能都是围绕此目标展开的,让我们来一探究竟。
导语:得益于调度单元是通用的SQL语句,SuperSQL能够做到与特定计算引擎解耦,也正因为此原因,SuperSQL只需专注在最优执行计划生成,并根据SQL具体类型选择最佳的计算引擎。 天穹SuperSQL是腾讯自研的跨数据源、跨数据中心、跨计算引擎的大数据SQL引擎,能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。在腾讯整个天穹大数据图谱中,负责连接端与存储。 数据源无论是关系型数据库、NoSQL还是大数据系统;数据存储无论是跨集群还是跨数据中心;数据计算无论是报表生成、分析挖掘
Tech 导读 星链是京东科技消金基础研发部研发的一款研发效能提升的工具平台,面向后端服务研发需求,尤其是集成性、场景化、定制化等难度不太高、但比较繁琐的需求,如服务前端的后端(BFF)、服务流程编排、异步消息处理、定时任务、运营后台、工作流程自动化、临时性需求等,以低代码方式开发微服务,以声明式进行Serverless部署,使研发人员聚焦业务逻辑而非各类细节,大幅提升研发效能、降本增效。 01 星链是什么 在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juin
LiteFlow是一个轻量且强大的国产流程引擎框架,可用于复杂的组件化业务的编排工作。通过它我们可以把业务逻辑都定义到不同组件之中,然后使用简洁的规则文件来串联整个流程,从而实现复杂的业务逻辑。
编辑 | Tina 近期,阿里开源了自研的大规模分布式搜索引擎 Havenask(内部代号 HA3)。 Havenask 是阿里巴巴内部广泛使用的大规模分布式检索系统,支持了淘宝、天猫、菜鸟、优酷、高德、饿了么等在内整个阿里的搜索业务,是过去十多年阿里在电商领域积累下来的核心竞争力产品。 大数据时代,数据检索是必备的基础能力。Havenask 支持千亿级别数据实时检索、百万 QPS 查询,百万 TPS 高时效性写入保障,毫秒级查询延迟和数据更新。并具有良好的分布式架构、极致的性能优化,能够实现比现有技术方
最近开始上手一个大数据离线数仓项目。本篇博客先为大家进行一个总体的介绍,包括各个阶段的任务以及项目的简介,环境,需求等等…
随着业务的高速发展和实时计算的迭代,业务对实时计算的需求越来越多,对实时任务的稳定性要求也越来越高。对实时计算平台而言,底层调度系统及计算引擎的稳定性、高可用性就变的十分重要。本文主要围绕作业帮实时计算平台底层调度系统,从背景现状、目标与挑战、方案设计以及未来规划等几方面来展开。
6月11日,2023开放原子全球开源峰会在北京开幕。本次峰会以“开源赋能,普惠未来”为主题。在高峰论坛上,蚂蚁技术研究院院长、图计算负责人陈文光宣布开源 TuGraph 图计算平台核心成员——工业级流式图计算引擎 TuGraph Analytics。
GeaFlow(品牌名TuGraph-Analytics) 已正式开源,欢迎大家关注!!! 欢迎给我们 Star 哦! GitHub👉 https://github.com/TuGraph-family/tugraph-analytics
阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今天,我们都会一一解读,并介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景。
从 2009 年到 2021 年,从千万交易额到千亿交易额,双 11 已经开展了 12 年。如今,每年的双 11 以及一个月后的双 12,已经成为真正意义上的全民购物狂欢节。刚刚过去的 2021 年双 11,就有超过 8 亿消费者参与。
实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。
前言 作者在腾讯一直从事数据相关领域的系统运营和运营平台的建设工作。目前主要负责 TDW 的系统运营,TDW 是腾讯内部最大的离线处理平台,也是国内最大的 HADOOP 集群之一。 在运营这么大集群的时候,运营面临各种各样的难题,在解决这些难题的过程中,团队提炼出来的一个运营理念,用两句话去描述。 用建模的思路去解决运营的难题 运营的问题怎么解决?你必须用一些数据建模的办法,把这个难题解析清楚,然后我们再去考虑运营平台建设。 运营平台支撑模型运作 不是为了建设运营平台而建设,而是它必须有一定的运营理念。下文
导读:本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。在实践中,我们总结的最佳实践是:一个通用的实时生产平台 + 一个通用交互式实时分析引擎相互配合同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易于开发、易于维护、效率最高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务多样需求。
Apache Spark 是一个统一的、快速的分布式计算引擎,能够同时支持批处理与流计算,充分利用内存做并行计算,官方给出Spark内存计算的速度比MapReduce快100倍。因此可以说作为当下最流行的计算框架,Spark已经足够优秀了。
大规模数据处理技术如果从MapReduce论文算起,已经前后跨越了十六年。我们先沿着时间线看一下大规模数据处理的重要技术和它们产生的年代。后面从MapReduce到Spark、Flink、Beam的演进特性来看大规模数据处理计算引擎应该具备什么样的能力。
何谓计算引擎,一言以蔽之,就是专门处理数据的程序,在大数据之前,人们用数据库来处理数据,人们常说的SQL,它是一种DSL,它的背后正是数据库的计算引擎,但是数据库的计算和存储通常被集成在一起,统称为数据库引擎。
对于技术人来说,最可怕的事在于:当技术每天都在更新,自己却没有学习的机会,于是轻易被抛弃……
上一篇提到了Illumio实施零信任微分段的“三步走”方法论:1)获得应用程序实时地图;2)为工作负载打标签;3)实施安全策略。
背景 美团点评作为全球最大的生活服务平台,承接超过千万的POI,服务于数量庞大的活跃用户。在海量数据的前提下,定位运营业务、准确找到需要数据的位置,并快速提供正确、一致、易读的数据就变得异常困难,这些困难主要体现在以下方面: 取数门槛高,找不到切合的数据,口径复杂不易计算,对运营人员有一定的技能要求,人力成本增大; 数据处理非常耗时,缺少底层离线数仓模型建设和预计算支撑,Ad-hoc平台查询缓慢; 数据不一致,不同渠道口径不一致,缺少对杂乱指标的统一管理; 数据反馈形式不友好,缺少数据可视化的形式,无法呈现
Vineyard 是一个专为云原生环境下大数据分析场景中端到端工作流提供内存数据共享的分布式引擎,我们很高兴宣布 Vineyard 在 2021 年 4 月 27 日被云原生基金会(CNCF)TOC 接受为沙箱(Sandbox)项目。
8 月 13 日,RocketMQ 迎来了 5.0 版本,这是继 2017 年发布 4.0 版本之后时隔 5 年的一次重大更新。5.0 版本进行了架构重塑,新增或者修改了超过 60% 的代码,但是对 4.0 的所有功能以及整体架构进行了无缝兼容,且没有引入任何外部依赖。而且其中非常重要的一点是,RocketMQ 兼容了开源 Flink 生态。与 Kafka 只是作为 Flink 的上下游数据不同,RocketMQ 直接实现了 Flink 的基础功能或者算子,并首创性地兼容了 Flink/Blink SQL 标准以及 UDF/UDAF/UDTF。为什么 RocketMQ 会选择将 Flink 融合到一起?这样带来哪些好处?适合哪些应用场景?为解答这些问题,InfoQ 采访了 RocketMQ 开源负责人杜恒和 rocketmq-streams cofunder 袁小栋。
这次主要来介绍下 Nebula 在 Akulaku 智能风控的实践。分为以下 6 个部分内容:
👆点击“博文视点Broadview”,获取更多书讯 今天是双12,错过双11的小伙伴们可不要连双12也错过了哦~~ 如果你不知道买哪些书,可以看看大家都在买哪些。博文菌整理了本月中大家购买最多的10本书,希望可以给到你一些参考! 双12福利 京东满100减50,部分图书满减叠券300减200 当当科技好书五折封顶 还等什么?速抢吧! ---- 01 ▊《高性能MySQL(第4版)》 [美] 杰里米·廷利 著 宁海元,周振兴,张新铭 译 领域经典十年后全版更新 全面拥抱8.0 重磅剖析现代云数
embedx 是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度召回模型和图与排序、图与召回的联合训练模型等。 embedx是腾讯 AI 领域开源协同项目,获得过开源协同优秀奖、微信最具技术价值文集奖等,经过近 3 年的迭代,已经趋向稳定和成熟,在设计和开发的过程中,参考了业界开源项目的大量经验,现将其开源反哺业界,希望该项目能持续的进行迭代。 项目链接请参考:https://github.com/Tencent/embedx 01 项目特点一: 效率高
本文从开发效率(易用性)、可扩展性、执行效率三个方面,介绍了微博机器学习框架Weiflow在微博的应用和最佳实践。 在上期《基于Spark的大规模机器学习在微博的应用》一文中我们提到,在机器学习流中,模型训练只是其中耗时最短的一环。如果把机器学习流比作烹饪,那么模型训练就是最后翻炒的过程;烹饪的大部分时间实际上都花在了食材、佐料的挑选,洗菜、择菜,食材再加工(切丁、切块、过油、预热)等步骤。在微博的机器学习流中,原始样本生成、数据处理、特征工程、训练样本生成、模型后期的测试、评估等步骤所需要投入的时间和精力
实时处理是指从数据产生到根据该数据计算的结果产生之间的这段延迟可以满足业务的需求,假如业务需求是延迟不超过10ms,而你的处理延迟为15ms,就不能算实时处理,而假如业务要求处理数据的延迟为30min,而你的数据可以在20min内计算出来,这也算实时处理。
导语 SuperSQL是腾讯天穹自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。我们通过将异构计算引擎/异构存储服务、计算引擎的智能化/自动化、SQL的流批一体、算力感知的智能化调度纳入内部系统闭环,给用户提供极简统一的大数据计算体验。用户能够从繁杂的底层技术细节中解脱出来,专注于业务逻辑的实现,像使用“数据库”一样使用“大数据”,实现业务逻辑与底层大数据技术的解耦。 背景 在大数据生态里,不同计算引擎适合不同的计算场景,Spark适合
最近我在学习流式计算引擎Flink,正在阅读Flink的官方文档、一些技术博客以及《Streaming Processing with Apache Flink》这本书,并试图将一些知识整理下来,形成一个系列。
本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;7、总结。受限于个人水平,谬误在所难免,欢迎同学们一起探讨,批评指正,不吝赐教。
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。
流批一体是一种架构思想,这种思想说的是同一个业务,使用同一个sql逻辑,在既可以满足流处理计算同时也可以满足批处理任务的计算。
现在运用到大数据技术的公司非常之多,在这块的质量保证工作上已经成为软件测试工程师又一个需要挑战自己的地方。在目前较流行的大数据5V标准之下,决定了大数据测试所应对的业务和常规业务测试存在一定的差异性和难度,下面我们就来看看基于大数据层级的一些测试关注点。
MES 是马蜂窝统一实时计算平台,为各条业务线提供稳定、高效的实时数据计算和查询服务。在整体设计方面,MES 借鉴了 Lambda 架构的思想。本篇文章,我们将从四个方面了解 MES:
导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次处理千亿级数据,秒级实时百万TPS吞吐的计算能力。
4月24日,浙江大学召开OpenKS(知目)知识计算引擎开源项目发布会,宣布浙大与合作单位研发的OpenKS知识计算引擎取得重大进展。中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学计算机学院教授潘云鹤说,本次发布的OpenKS,作为知识计算引擎项目中的基础软件架构,定义并丰富了知识计算的内涵,是我国在大数据人工智能方向的又一次有益尝试。
领取专属 10元无门槛券
手把手带您无忧上云