首页
学习
活动
专区
工具
TVP
发布

857-Bigdata

专栏作者
89
文章
100559
阅读量
22
订阅数
Shell遍历HDFS路径统计层级目录大小
857技术社区
2024-01-10
1240
【nlp-with-transformers】|Transformers中的generate函数解析
今天社群中的小伙伴面试遇到了一个问题,如何保证生成式语言模型在同样的输入情况下可以保证同样的输出。
857技术社区
2023-09-18
1K0
【建议收藏】|3分钟让你学会Scala Trait 使用
Scala 是一种强大的静态类型编程语言,其中的 Trait 是一种重要的特性。Trait 可以被看作是一种包含方法和字段定义的模板,可以被其他类或 Trait 继承或混入。在本文中,我们将介绍 Scala Trait 的边界(Boundary)的概念,并展示如何使用它来限制 Trait 的使用范围。
857技术社区
2023-07-26
1570
一文读懂如何处理缓慢变化的维度(SCD)
长期以来,Kimball方法一直是维度数据建模技术的标准。根据Kimball的说法,“时间概念渗透到数据仓库的每个角落”。这在数据分析的背景下意味着什么?在较高的层面上,现代分析可以被视为随着时间的推移不断变化的数据的聚合。问题在于,不断变化的数据不仅包括新的添加,还包括对先前数据集的更改。
857技术社区
2023-07-26
3260
Flink 遇见 Apache Celeborn:统一的数据 Shuffle 服务
我们非常高兴的宣布 Apache Celeborn(Inclubating)[1]正式支持 Flink,Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器,一直致力打造统一的中间数据服务,助力引擎全方位提升性能、稳定性和弹性,最新发布的 0.3.0 版本新增对 Flink 批作业 Shuffle 的支持,从此 Flink、Spark 可以同时使用统一的数据 Shuffle 服务,更大程度节省资源、降低运维成本。
857技术社区
2023-07-26
3900
Flink+StarRocks 实时数据分析实战
摘要:本文整理自 StarRocks 社区技术布道师谢寅,在 Flink Forward Asia 2022 实时湖仓的分享。本篇内容主要分为五个部分:
857技术社区
2023-07-26
7620
聊聊数据仓库建设步骤
预计到2025年,全球数据量将增长至180ZB,企业必须处理两个主要问题——在哪里存储数据以及如何使用数据。数据仓库自20世纪80年代以来就已经存在,并且其功能不断扩展,可以帮助应对这两个挑战。然而,根据独立市场研究公司VansonBourne的研究,无论技术成熟度如何,而且数据仓库通常由专家开发,失败项目的比例仍然高居不下。
857技术社区
2023-07-26
3390
Flink CDC 2.4 正式发布,新增 Vitess 数据源,更多连接器支持增量快照,升级 Debezium 版本
Flink CDC [1] 是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。
857技术社区
2023-07-26
3840
浅析 Apache DolphinScheduler 工作流实例的生命周期
大家好,我是蔡顺峰,白鲸开源的数据工程师,同时也是Apache DolphinScheduler项目的committer和PMC成员。今天我想和大家分享的主题是工作流实例的生命周期。
857技术社区
2023-07-26
4310
一文读懂 Kappa 和 Lambda架构【CDGP重要参考】
在大数据处理领域,两种突出的数据架构已成为处理大量数据的流行选择:Lambda 架构和 Kappa 架构。这些架构为实时和批处理提供了强大的技术解决方案,使组织能够从其数据中获得有价值的见解。在本文中,我们将深入研究 Lambda 和 Kappa 架构,研究它们的主要特征、优点和注意事项。
857技术社区
2023-07-26
9560
Flink 流批一体在 Shopee 的大规模实践
摘要:本文整理自 Shopee 研发专家李明昆,在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为四个部分:
857技术社区
2023-07-26
4480
谈谈企业需要什么样的数据架构
在大数据和数据科学的新时代,企业拥有一个与业务流程保持一致的集中式数据架构至关重要,该架构可以随着业务增长而扩展,并随着技术进步而发展。一个成功的数据架构可以清晰地展示数据的各个方面,从而使数据科学家、数据分析师、业务人员能够高效地处理可信赖的数据并解决复杂的业务问题。它还使组织能够通过利用新兴技术快速应对新的商业机会,并通过管理整个企业的复杂数据和信息交付来提高运营效率。
857技术社区
2023-07-26
1630
【建议收藏】|Hybrid Shuffle 测试分析和使用建议
摘要:Apache Flink 社区在 1.16 版本引入了 Hybrid Shuffle Mode [1],它是传统的 Batch Shuffle 和 Pipelined Shuffle 的结合,让 Flink 批处理具备了更强大的能力。Hybrid Shuffle 的核心思想是打破调度约束,根据可用资源的情况来决定是否需要调度下游任务,同时在条件允许时支持全内存不落盘的数据传输。
857技术社区
2023-07-26
1380
【建议收藏】|某大型金融集团内部数据治理实战总结
对于你喜欢的事想去做的事,你必须付出百分之一千的努力你知道这一路可能会有很多困难,会有坚持不下去想要放弃的时候也有时候,你不一定会得到你想要的结果,但你—定要相信。
857技术社区
2023-05-23
3120
基于ray 多进程调度管理能力优化networks节点最短路径的并行计算
原生的networkx实现的只能在节点介数度量性任务上达到单核心100的cpu利用率。通过对源码的几行改造我们可以实现多核心的100的利用率。接下来要我们来一起看看是如何实现的多核心100的利用率。
857技术社区
2023-05-23
2660
5分钟入门数据湖IceBerg
随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项目具备 ACID 能力的表格式成为了大数据、数据湖领域炙手可热的方向。
857技术社区
2023-05-23
3.5K0
5万字长文!搞定Spark方方面面
今天给大家分享一篇小白易读懂的 Spark 万字概念长文,本篇文章追求的是力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、再到原理深入,由浅入深地轻松掌握 Spark。
857技术社区
2023-05-23
1.1K0
【建议收藏】|信息抽取与经济学文本量化分析
通过信息抽取技术实现实体、关系抽取任务。通过光学字符识别能力扩大企业公告 pdf 的识别来源。通过对开源数据集及开源深度学习解决方案实现预训练语言模型训练工作、实体识别训练工作、关系抽取训练工作。
857技术社区
2023-05-23
3290
【建议收藏】Flink watermark分析实战
摘要 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算 flink中提供了时间窗的相关算子计算区域时间内的数据 本次分享基于flink 1.14 此次分享内容中,api演示与旧版略有不同,概念并无不同 本次分享需要对流式数据处理计算有一定的了解 概念篇 Flink时间语义概念简介 在flink的流式处理中,会涉及到时间的不同概念 Processing Time 处理时间 Event Time 事件时间 Ingestion Time 注入时间 Processing
857技术社区
2023-05-23
5970
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(四)CEP篇
对于你喜欢的事想去做的事,你必须付出百分之一千的努力你知道这一路可能会有很多困难,会有坚持不下去想要放弃的时候也有时候,你不一定会得到你想要的结果,但你—定要相信。
857技术社区
2023-02-23
7770
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档