主理人

857-Bigdata

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在深度学习领域，注意力机制是提高模型性能的关键组件。然而，传统的注意力机制在长序列处理时会消耗大量内存和计算资源。为了解决这个问题，Tri Dao等人提出了FlashAttention，这是一种快速且内存高效的注意力机制。本文将介绍FlashAttention及其改进版FlashAttention-2的核心概念、安装方法和使用示例。

FlashAttention：快速且内存高效的准确注意力机制

	Modbus TCP是一种应用于工业自动化领域的通信协议，它是Modbus协议的一个变种，采用TCP/IP协议进行数据传输。Modbus TCP使得Modbus协议可以通过以太网网络运行，允许设备之间在IP网络上交换数据。

探究Modbus TCP：工业自动化中的关键通信协议

设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术（如Prompt Engineering、P-Tuning v2、LoRA）的面试题目，旨在评估应聘者对这些模型架构的理解、微调方法的掌握程度以及在实际应用中的问题解决能力。以下是一套综合性的面试题设计方案：

设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术

训练策略和模型之间有着密切的联系，尤其是在自然语言处理（NLP）和机器学习领域。以下是训练策略和模型的简要介绍：

入门生成式语言模型（Generative Language Models）

Shell遍历HDFS路径统计层级目录大小

今天社群中的小伙伴面试遇到了一个问题，如何保证生成式语言模型在同样的输入情况下可以保证同样的输出。


【nlp-with-transformers】|Transformers中的generate函数解析

Scala 是一种强大的静态类型编程语言，其中的 Trait 是一种重要的特性。Trait 可以被看作是一种包含方法和字段定义的模板，可以被其他类或 Trait 继承或混入。在本文中，我们将介绍 Scala Trait 的边界（Boundary）的概念，并展示如何使用它来限制 Trait 的使用范围。

【建议收藏】|3分钟让你学会Scala Trait 使用

长期以来，Kimball方法一直是维度数据建模技术的标准。根据Kimball的说法，“时间概念渗透到数据仓库的每个角落”。这在数据分析的背景下意味着什么？在较高的层面上，现代分析可以被视为随着时间的推移不断变化的数据的聚合。问题在于，不断变化的数据不仅包括新的添加，还包括对先前数据集的更改。

一文读懂如何处理缓慢变化的维度(SCD)

我们非常高兴的宣布 Apache Celeborn（Inclubating）[1]正式支持 Flink，Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器，一直致力打造统一的中间数据服务，助力引擎全方位提升性能、稳定性和弹性，最新发布的 0.3.0 版本新增对 Flink 批作业 Shuffle 的支持，从此 Flink、Spark 可以同时使用统一的数据 Shuffle 服务，更大程度节省资源、降低运维成本。

Flink 遇见 Apache Celeborn：统一的数据 Shuffle 服务

摘要：本文整理自 StarRocks 社区技术布道师谢寅，在 Flink Forward Asia 2022 实时湖仓的分享。本篇内容主要分为五个部分：

Flink+StarRocks 实时数据分析实战

预计到2025年，全球数据量将增长至180ZB，企业必须处理两个主要问题——在哪里存储数据以及如何使用数据。数据仓库自20世纪80年代以来就已经存在，并且其功能不断扩展，可以帮助应对这两个挑战。然而，根据独立市场研究公司VansonBourne的研究，无论技术成熟度如何，而且数据仓库通常由专家开发，失败项目的比例仍然高居不下。

聊聊数据仓库建设步骤

Flink CDC [1] 是基于数据库的日志 CDC 技术，实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态，Flink CDC 可以高效实现海量数据的实时集成。

Flink CDC 2.4 正式发布，新增 Vitess 数据源，更多连接器支持增量快照，升级 Debezium 版本

大家好，我是蔡顺峰，白鲸开源的数据工程师，同时也是Apache DolphinScheduler项目的committer和PMC成员。今天我想和大家分享的主题是工作流实例的生命周期。

浅析 Apache DolphinScheduler 工作流实例的生命周期

在大数据处理领域，两种突出的数据架构已成为处理大量数据的流行选择：Lambda 架构和 Kappa 架构。这些架构为实时和批处理提供了强大的技术解决方案，使组织能够从其数据中获得有价值的见解。在本文中，我们将深入研究 Lambda 和 Kappa 架构，研究它们的主要特征、优点和注意事项。

一文读懂 Kappa 和 Lambda架构【CDGP重要参考】

摘要：本文整理自 Shopee 研发专家李明昆，在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为四个部分：

Flink 流批一体在 Shopee 的大规模实践

在大数据和数据科学的新时代，企业拥有一个与业务流程保持一致的集中式数据架构至关重要，该架构可以随着业务增长而扩展，并随着技术进步而发展。一个成功的数据架构可以清晰地展示数据的各个方面，从而使数据科学家、数据分析师、业务人员能够高效地处理可信赖的数据并解决复杂的业务问题。它还使组织能够通过利用新兴技术快速应对新的商业机会，并通过管理整个企业的复杂数据和信息交付来提高运营效率。

谈谈企业需要什么样的数据架构

摘要：Apache Flink 社区在 1.16 版本引入了 Hybrid Shuffle Mode [1]，它是传统的 Batch Shuffle 和 Pipelined Shuffle 的结合，让 Flink 批处理具备了更强大的能力。Hybrid Shuffle 的核心思想是打破调度约束，根据可用资源的情况来决定是否需要调度下游任务，同时在条件允许时支持全内存不落盘的数据传输。

【建议收藏】|Hybrid Shuffle 测试分析和使用建议

对于你喜欢的事想去做的事,你必须付出百分之一千的努力你知道这一路可能会有很多困难，会有坚持不下去想要放弃的时候也有时候，你不一定会得到你想要的结果,但你—定要相信。

【建议收藏】|某大型金融集团内部数据治理实战总结

原生的networkx实现的只能在节点介数度量性任务上达到单核心100的cpu利用率。通过对源码的几行改造我们可以实现多核心的100的利用率。接下来要我们来一起看看是如何实现的多核心100的利用率。

基于ray 多进程调度管理能力优化networks节点最短路径的并行计算

随着大数据存储和处理需求的多样化，如何构建一个统一的数据湖存储，并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项目具备 ACID 能力的表格式成为了大数据、数据湖领域炙手可热的方向。

5分钟入门数据湖IceBerg

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了857-Bigdata专栏，为你提供了857-Bigdata的相关文章，致力于帮助开发者快速成长与发展。

857-Bigdata

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐