学习
实践
活动
专区
工具
TVP
写文章
  • 广告
    关闭

    2023新春采购节

    领8888元新春采购礼包,抢爆款2核2G云服务器95元/年起,个人开发者加享折上折

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    flink二三事(2):起家技术

    上一篇聊到flink历史,请看上篇 flink两三事 ----(1)历史。 可以说基本上是起了个大早,赶了个晚集,但是flink能做今天这种热度,没有被spark干死也是不容易。 14年flink在apache孵化能活下来并成为顶级项目的关键还是flink有些自己创新技术。 图4 Flink计算模型 除了steaming模型有很大区别之外,flink当时比较能拿得出手就是内存管理了。下面简单讲讲flink内存管理,基本思路就是放弃了jvm内存管理,自己单独干。 Flink 采用类似 DBMS sort 和 join 算法,直接操作二进制数据,从而使序列化/反序列化带来开销达到最小。所以 Flink 内部实现更像 C/C++ 而非 Java。 flink这些技术,当年给spark造成了一定压力,好在spark反应快,立刻放了一个Tungsten大招来优化性能。

    82950

    Flink 网络传输优化技术

    此外,Flink 数据传输还需要支持框架本身特性,例如反压和用于测量延迟 latency marker。 在社区不断迭代中,Flink 逐渐积累了一套值得研究网络栈(Network Stack),本文将详细介绍 Flink Network Stack 实现细节以及关键优化技术。 本文主要基于 Nico Kruber 在去年 9 月 Flink Forward Berlin 上分享 [1],涉及到技术主要有 1.5 版本引入 Credit-based 数据流控制以及在延迟和吞吐方面做优化 Flink 计算模型 Flink 计算模型分为逻辑层和执行层,逻辑层主要用于描述业务逻辑,而执行层则负责作业具体分布式执行。 图2.网络栈概览 下文内容会主要围绕数据传输部分展开,逐一介绍其中优化技术

    1.3K32

    Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台

    欢迎大家关注 Dinky 发展~ 一、背景 当前行业不断有许多新概念与新技术涌现,同时伴随着大量开源项目的诞生和发展,也有越来越多企业转向开源软件。 本次分享将介绍如何运用 Doris + Flink + DolphinScheduler + Dinky 四个开源项目来构建一个基本数据平台,并支持离线、实时、OLAP 三种技术需求。 二、开源数据平台思路 本章节主要讲述数据平台搭建所用开源项目介绍以及设计思路。 技术介绍 Apache Doris 首先要运用到是 Apache Doris。 开源数据平台设计思路是通过 Flink SQL Batch 以及 Doris SQL 能力实现一个离线任务开发;使用 DolphinScheduler 进行离线工作流编排和调度;通过 Flink 主要是: Flink CDC 作为 CDC 技术Flink SQL 流处理能力; Dinky 整库同步能力; Doris 提供 OLAP 查询能力,上游通过实时写入,Doris 数据查询也具备了一定实时性

    98660

    Flink技术内幕之文件系统

    Flink 通过 org.apache.flink.core.fs.FileSystem 类有自己文件系统抽象。 这种抽象提供了一组通用操作和跨各种类型文件系统实现最小保证。 本文翻译自:https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/internals/filesystems/ 实现 Flink 导致操作系统缓存丢失数据崩溃对本地机器来说是致命,并且不在 Flink 定义本地文件系统保证范围内。 出于这个原因,Flink FileSystem 不支持附加到现有文件,或在输出流中查找,以便可以在同一个文件中更改先前写入数据。 覆盖文件内容 覆盖文件通常是可能。 为了避免这些一致性问题,Flink 中故障/恢复机制实现严格避免多次写入同一个文件路径。

    26630

    Google 开源技术protobuf

    Protobuf简介 protobuf是google提供一个开源序列化框架,类似于XML,JSON这样数据表示语言,其最大特点是基于二进制,因此比传统XML表示高效短小得多。 虽然是二进制数据格式,但并没有因此变得复杂,开发人员通过按照一定语法定义结构化消息格式,然后送给命令行工具,工具将自动生成相关类,可以支持php、java、c++、python等语言环境。 通过将这些类包含在项目中,可以很轻松调用相关方法来完成业务消息序列化与反序列化工作。 protobuf在google中是一个比较核心基础库,作为分布式运算涉及到大量不同业务消息传递,如何高效简洁表示、操作这些业务消息在google这样大规模应用中是至关重要。 一旦你定义了自己报文格式(message),你就可以运行ProtocolBuffer编译器,将你 .proto 文件编译成特定语言类。

    1.2K20

    开源技术更重要,可能是开源治理!

    这个架构特征是——开源开源技术吞噬了闭源软件,又成为了商业软件基石,以此衍生开源社区更是缩短了世界边界、开发边界,促进了全球化软件研发与创新。 随着近年来开源技术快速发展,越来越多企业、组织与开发者参与到开源之中。与此同时,开源治理逐渐进入人们视野,成为开源领域一大热点话题。 ,无论是创新开源技术出现,还是在业务中大规模应用和不断进步都离不开企业。 与此同时,企业也成为了开源软件重要贡献者,很多开源项目最早就诞生于企业内部,比如Hadoop源自Yahoo,K8s来源于Google。企业不仅是开源技术最大使用者,同时也是开源技术最大贡献者。 通过“开源外循环”,引入外部优秀开源项目,通过外部新鲜血液促进内部技术持续创新。

    33630

    阿里Blink开源,会不会是Flink分崩离析开始?

    今天刷朋友圈,首先看到是AI前线这篇文章:重磅!阿里Blink正式开源,重要优化点解读。这篇文章开篇大概是这样: ? 作者大沙是Blink团队大拿。 我不理解是,如果这些都是好东西,为什么过去两年多时间里,把Blink相关功能推进给Flink是如此艰难。Flink团队和开源社区总不至于睁着眼当瞎子,见到好东西故意不要吧。 所以Apache Flink作为一个Apache开源项目,接下来到底是谁说了算,我只能拭目以待。 这个事情还有另外一个顾虑。 简单来说,我在国内媒体,比如微信公众号上见到了很多关于Blink开源Flink文章。并且阿里巴巴表达了Blink对Flink改进是巨大,而且Blink会很快进入Flink。 但是我在非中文媒体里并没有见到同样程度欢声雀跃欢迎Blink到来文章。难道国内月亮和国外不一样圆吗? Blink开源,会不会比现在这样社区推动发展Flink更好,这个问题是见仁见智

    1.1K20

    从TDengine开源说起技术选型

    如果一艘快艇足够承载下你所有货物到达彼岸,那么你不需要使用一艘轮船出行。产品设计和技术选型也是一样,我们经常会说:“我需要一个能够处理百万规模并发读写操作,低延时,高可用系统。” 做技术选型时,我们不会单纯说A方案比B方案好,只是在解决特定问题上,A方案比B方案更合适,选择了A方案同时也意味着接受A方案里那些不如B方案地方。 最近花了一些时间去熟悉这个开源项目的文档和代码,聊聊在做IOT时序数据库这方面的技术选型时使用TDengine或者其他产品一些可能需要考虑点。 开源协议考虑 TDengine社区版本基于AGPL 3.0协议开源。 在商业模式上,TDengine 选择了与InfluxDB同样开源单机版,销售集群版路线,作为国内少有的热门开源项目(github开源一周近5千Star)后续发展值得关注。

    2.3K30

    开源搜索技术核心引擎 —— Lucene

    ES 很了不起,需要使用搜索技术互联网公司大半都在使用他,但是它核心引擎却是另一个开源框架 —— Lucene。 不同于我们平时常用 Web 框架五花八门,开源搜索系统却并不是很丰富,因为它制造成本比 Web 框架要高出太多。Lucene 在开源搜索引擎里一直处于垄断地位,它实现语言是 Java 语言。 所以如果读者希望更加深入地了解搜索技术,那就必须把 Lucene 吃透。在 Lucene 非常了解基础上再来研究 ES 就可以事半功倍。 但是究其内部引擎实现上他们通常都会非常频繁参考开源实现 —— 开源技术就是一座现成金矿,巨人肩膀不站白不站。 在本系列后续文章中,我们首先会对 Lucene 进行一系列分析讲解,给搜索技术打上夯实基础。也许你会质疑学习 Lucene 对我们这些写业务代码能带来什么帮助?

    46520

    Google开源WebRTC技术安全吗?

    此外,由于WebRTC是作为浏览器一部分提供,因此倾向于通过浏览器供应商自动更新来快速解决任何潜在安全威胁或漏洞。 极其安全连接,而当前技术无法打破这种连接。 WebRTC和ORTC都强制使用此特定堆栈,该堆栈向后兼容且可与VoIP系统互操作。 现在,台式机和移动设备上每个主要浏览器供应商都提供了无插件支持,再加上智能设计媒体服务器集群,可以扩展到成千上万并发用户,而仅需几毫秒延迟。 拓展阅读:EasyRTC视频会议云服务 EasyRTC是TSINGSEE青犀视频团队在音视频领域多年技术积累而研发一款产品。它是覆盖全球实时音频开发平台,支持一对一、一对多等视频通话。 结语:随着移动互联网高速发展,AI、5G等等新兴技术到来,结合WebRTC技术,也将衍生出更多应用场景,改变人类衣、食、住、行等生活方式。

    45520

    2023开源技术报告——数据技术

    图片 最近几年,中国开源技术开源社区步入了发展快车道,其主客观原因很多,包括: 国家政策支持:中国政府在近年来陆续出台了一系列政策来支持开源技术开源社区发展,例如《政府开放数据条例》、《关于鼓励支持互联网 开源技术商业化应用:随着云计算和人工智能等领域快速发展,越来越多企业开始将开源技术应用到商业领域中,这促进了开源技术广泛普及和应用。 国际开源社区引领:中国开源社区在国际开源社区引领下,逐渐与国际接轨,与世界各地开源社区展开合作,促进了国内开源技术发展。 各种开源项目和社区为加速创新和软件开发项目做出贡献。 本文中,我们截取开源技术数据技术篇,向大家展示在开源领域最受欢迎大数据技术是哪些,在每个行业中应用情况,以及企业用户在使用中痛点。 顶级开源数据技术 ----- 在我们数字时代,数据为王,而更好地管理数据需要导致了开源数据技术激增,技术扩散。这些技术远远超出了传统数据库能力。

    1.4K151

    独家 | 一文读懂Apache Flink技术

    首先是Checkpoint机制,这是Flink最重要一个特性。Flink基于Chandy-Lamport算法实现了一个分布式一致性快照,从而提供了一致性语义。 1.4 Flink Title变化 早期Flink是这样介绍自己:“我是一个开源流批统一计算引擎”,当时跟Spark有点类似。 2.3 Flink Checkpoint & Recovery历史变迁 Checkpoint机制在Flink很早期时候就已经支持,是Flink一个很核心功能,Flink社区也一直致力于努力把Checkpoint 在Flink 1.4.0时期,提供了端到端exactly once语义保证,Flink中所谓exactly once一般是指Flink引擎本身exactly once。 在Flink 1.5.0时期,Flink首次对外正式地提到新部署模型和处理模型。

    61120

    Flink -- 核心技术

    FlinkML:Flink机器学习库,批处理API高级封装,提供可扩展ML算法、直观API和工具。 Gelly:Flink图计算库,也是在批处理API基础上做一层封装,提供了创建、转换和修改图方法以及图算法库。 Flink设计思想是把批当作一种有限流,这样在流处理过程中也能够发挥批处理特性,实现了批流一批化。 ? Flink中时间和状态是流应用中两大元素,Flink支持三种时间语义,含义与示图如下: 事件时间(Event Time):是数据产生或消息创建时间; 接入时间(Ingestion Time):是数据或消息进入 Flink计算引擎时间; 处理时间(Processing Time):是数据被Flink计算引擎处理时间。

    1.2K32

    深入理解Apache Flink核心技术

    本文将深入分析Flink一些关键技术与特性,希望能够帮助读者对Flink有更加深入了解,对其他大数据系统开发者也能有所裨益。 Gelly,Flink图计算库,提供了图计算相关API及多种图计算算法实现。 Flink技术栈如图1所示: ? 图1 Flink技术栈 此外,Flink也可以方便地和Hadoop生态圈中其他项目集成,例如Flink可以读取存储在HDFS或HBase中静态数据,以Kafka作为流式数据源,直接重用MapReduce Flink处理策略 为了解决以上提到问题,高性能分布式计算框架通常需要以下技术: 定制序列化工具。 总结 本文主要介绍了Flink项目的一些关键特性,Flink是一个拥有诸多特色项目,包括其统一批处理和流处理执行引擎,通用大数据计算框架与传统数据库系统技术结合,以及流处理系统诸多技术创新等,因为篇幅有限

    1.5K30

    那些年,追过开源软件和技术

    前言 笔者也是在互联网软件行业里面摸爬滚打十年多了,回头想想青葱岁月,很多时间都花在各种技术热潮追逐上,有些是有价值,也有些因为没人指导走过弯路,下面我就把我自己接触到这么多优秀开源软件给大家做个梳理 下面几个都是Linkedin开源数据技术 Projects | LinkedIn Data Team Voldemort:NoSQL 键/值存储引擎,完全是分布式且去中心化,支持分区与容错。 目前到0.6版本,参与开源规模和版本迭代速度都很快。 先进大数据技术:流式,实时 由于Hadoop火红,整个业界都在喋喋不休地谈论大数据。 Samza:一个分布式流处理框架,专用于实时数据处理,非常像Twitter流处理系统Storm,LinkedIn开源了这项技术。 参考资料: 这7个开源技术支撑起整个互联网时代 The Architecture of Open Source Applications The Top 11 Hottest GitHub Projects

    55321

    Flink特性

    Flink作为新一代大数据项目,除了尽量匹配其他大数据项目所提供能力之外,还拥有一些不错特性,列举如下: 既支持批处理也支持流计算,拥有一个 streaming-first(流优先)运行时(runtime 、无序处理、事件延迟等能力并保证结果正确性; 灵活且支持多种时间语义(事件时间、处理时间、摄入时间)窗口; 支持状态以及容错性(fault-tolerance)并提供恰好一次(exactly-once )一致性语义保证; 程序更新、扩容后不丢失状态保存点机制; 流计算中自然反压机制; 提供关系及SQL查询、图计算、机器学习以及复杂事件处理等领域特定库; 内置对迭代支持; 自实现具备高效性和鲁棒性显式内存管理机制 ; 提供对Hadoop以及Storm兼容性; 提供与YARN、HDFS、HBase以及Hadoop生态系统中其他部件集成能力; 以上这些特性在保证Flink满足通用目的数据分析与处理同时也使得其成为某些特殊领域与场景 (比如要求极低延迟、较高准确性实时流计算)可靠选择。

    46600

    快速入门Flink (3) —— Flink运行架构

    我希望在最美的年华,做最好自己! 通过快速入门Flink前几篇博客,博主已经为大家介绍了关于Flink简介与架构体系以及常用几种不同模式集群搭建过程。(? 详情见Flink专栏)。本篇博客,博主为大家带来Flink运行架构介绍。 码字不易,先赞后看! ? ---- 1、Flink运行架构 1.1 任务提交流程 ? 1.3 程序与数据流 Flink 程序基础构建模块是流(streams) 与 转换(transformations)(需要注意 是,Flink DataSet API 所使用 DataSets 1.4 并行数据流 Flink 程序执行具有并行、分布式特性。 下一篇博客,我们将正式上手Flink实战代码,敬请期待|ू・ω・` ) 如果以上过程中出现了任何纰漏错误,烦请大佬们指正? 受益朋友或对大数据技术感兴趣伙伴记得点赞关注支持一波?

    28020

    大数据开源框架技术汇总

    主要基于对现阶段一些常用大数据开源框架技术整理,只是一些简单介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展做个参考。 目前Spark已经成为大数据领域最热门技术。 相关网站:Apache Spark Flink:Apache Flink是一个开源流处理和批处理分布式数据处理框架,其核心是一个流式数据流执行引擎。 众多优秀特性,使得Flink成为开源大数据数据处理框架中一颗新星,在全球范围内,越来越多公司开始使用FlinkFlink也渐渐成为企业内部主流数据处理框架,逐渐成为下一代大数据数据处理框架标准趋势 相关网站:Apache Flink Storm:Apache Storm是一个开源分布式实时大数据处理系统。

    1K21

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 弹性 MapReduce

      弹性 MapReduce

      弹性MapReduce (EMR)结合云技术和  Hadoop等社区开源技术,提供安全、低成本、高可靠、可弹性伸缩的云端托管 Hadoop 服务。您可以在数分钟内创建安全可靠的专属 Hadoop 集群,以分析位于集群内数据节点或 COS 上的 PB 级海量数据……

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券