大数据与知识图谱

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

芭芭拉·明托（Barbara Minto）1961年成为哈佛商学院录取的第一批女学员之一。1963年，明托被麦肯锡国际管理咨询公司聘请为该公司有史以来的第一位女性咨询顾问。她在写作方面的长处很快得到赏识，并于1966年被公司派往英国伦敦，负责提高麦肯锡公司日益增多的欧洲员工的写作能力。三十多年来，明托致力于向人们传授明托金字塔原理，传授对象是那些接受过商业或专业培训，但在工作中需要撰写复杂的报告、研究性文章、备忘录或演示文稿的人士以及其他社会各界人士。迄今，明托已为美国、欧洲、澳大利亚、新西兰和中东等国家和地区的许多公司讲过课，并在哈佛商学院、斯坦佛商学院、芝加哥商学院、伦敦商学院等做过讲座。

金字塔原理

对于某些维度属性，值不会发生变化，因此可以保留初始值，此方法什么也不做。例如日期维度的大多数属性，值都不会发生变化，如月份、季度、是否节假日等属性。

面试篇：数仓缓慢变化维的处理方式

1.SparkSql通过Parser（解析器）把Sql转化成UnResolved Logical Plan（这是一棵Parsed Logical Plan AST语法树）。

面试篇: SparkSql如何把Sql转化成RDD可以执行的任务

1.有一个订单表order_tab，字段有：
order_id,order_amt,user_id,user_address
计算每个用户使用最多的3个地址，以及每个地址使用的次数，对应地址消费的总金额；
select 
  user_id, 
  user_address, 
  cnt, 
  order_amt 
from 
  (
    select 
      user_id, 
      user_address, 
      cnt, 
      row_number() over(

面试篇：两道常见面试sql题

用户uid给用户to_uid刷了礼物，求用户uid与用户to_uid的互相关注类型relation，

​数仓经典面试互相关注sql题

总结：HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree（操作树）->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树。

面试篇：Hive Sql转换成MapReduce的过程

锯齿形层序遍历：层序遍历的变种，要求我们按层数的奇偶来决定每一层的输出顺序。规定二叉树的根节点为第 0 层，如果当前层数是偶数，从左至右输出当前层的节点值，否则，从右至左输出当前层的节点值。

二叉树的5种遍历方式

可以看到tid为514线程，使用cpu最高。这边只有单线程的一个程序，为了看排查流程。

面试篇：如何排查cpu占用过高？

Flink自1.4.0开始实现exactly-once的数据保证，即在任何情况下都能保证数据对应用产生的效果只有一次，不会多也不会少。

Flink如何实现Exactly-once语义？

这个过程涉及到 4 次上下文切换以及 4 次数据的复制，并且有两次复制操作是由 CPU 完成。但是这个过程中，数据完全没有进行变化，仅仅是从磁盘复制到网卡缓冲区。

Kafka的零拷贝技术

在遍历链表时，将当前节点的next指针改为指向前一个节点。由于节点没有引用其前一个节点，因此必须事先存储其前一个节点。在更改引用之前，还需要存储后一个节点。最后返回新的头引用。

面试篇：两个面试常见算法题

在MapReduce框架中，Shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过Shuffle这个环节，Shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了Shuffle的逻辑。对于大数据计算框架而言，Shuffle阶段的效率是决定性能好坏的关键因素之一。

Spark Shuffle机制

事务前后数据的完整性必须保持一致。比如A向B转账，A扣100元，B收到100元，符合逻辑运算。

技术篇：数据库的事务隔离级别

Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分Stage，而划分依据就是RDD之间的依赖关系。


技术篇：Spark的宽依赖与窄依赖

表中一行数据代表该用户在该日期登陆过，求每一位用户连续登陆天数最大分别是多少天。
解题思路：

面试篇：快手数据研发面试题

3.kafka分区与group，consumer消费和partition是如何对应的

去哪儿数仓面试题

思路：首先设置两个节点 first ,second 都指向head节点，然后先让first向后移动，直到second和first的间隔恰好为N的时候，first和second一起向后移动，直到first.next == null 的时候，那么second所指的结点就是要删除的结点。

字节面试算法题

array：array中的数据为相同类型，例如，假如array A中元素['a','b','c']，则A[0]的值为'a'。

常见经典数仓面试题

Aberdeen 的一项调查表明，实施数据湖的组织比同类公司在有机收入增长方面高出 9%。这些领导者能够进行新类型的分析，例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互联网连接设备等进行机器学习。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备以及做出明智的决策来更快地识别和应对业务增长机会。

数据湖是下一代数据仓库吗？

Multicorn 是一个 PostgreSQL 9.1+ 的扩展模块，用于简化外部数据封装开发，允许开发者使用 Python 编程语言开发。

PostgreSQL利用Multicorn访问CSV外部数据源

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据与知识图谱专栏，为你提供了大数据与知识图谱的相关文章，致力于帮助开发者快速成长与发展。

大数据与知识图谱

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐