Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1303759

阅读量

248

订阅数

Redis 缓存使用技巧和设计方案

缓存云数据库 Redis 编程算法数据结构数据库

缓存能够有效地加速应用的读写速度，同时也可以降低后端负载，对日常应用的开发至关重要。下面会介绍缓存使用技巧和设计方案，包含如下内容：缓存的收益和成本分析、缓存更新策略的选择和使用场景、缓存粒度控制方法、穿透问题优化、无底洞问题优化、雪崩问题优化、热点key重建优化。

Spark学习技巧

2022-04-18

9060

知乎用户画像与实时数据架构实践

数据集成数据库 sql 实时数据集成编程算法

‍‍‍‍‍‍‍‍知乎业务中，随着各业务线业务的发展，逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面，期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面，期望拥有可以实时响应的用户行为流，同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。

Spark学习技巧

2022-04-18

8230

Hive常用参数调优十二板斧

linux 编程算法 hive mapreduce

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

Spark学习技巧

2022-03-14

1.4K0

如何提高Flink大规模作业的调度器性能

flink 大数据缓存编程算法

在 Flink 1.12 中调度大规模作业时，需要大量的时间来初始化作业和部署任务。调度器还需要大量的堆内存来存储执行拓扑和主机临时部署描述符。例如，对于一个拓扑结构的作业，该作业包含两个与全对全边相连且并行度为 10k 的作业（这意味着有 10k 个源任务和 10k 个接收器任务，并且每个源任务都连接到所有接收器任务），Flink 的 JobManager 需要 30 GiB 的堆内存和超过 4 分钟的时间来部署所有任务。

Spark学习技巧

2022-03-14

1.3K0

Flink SQL代码生成与UDF重复调用的优化

javascript sql 编程算法 flink 大数据

代码生成（code generation）是当今各种数据库和数据处理引擎广泛采用的物理执行层技术之一。通过代码生成，可以将原本需要解释执行的算子逻辑转为编译执行（二进制代码），充分利用JIT编译的优势，克服传统Volcano模型虚函数调用过多、对寄存器不友好的缺点，在CPU-bound场景下可以获得大幅的性能提升。

Spark学习技巧

2022-03-14

1.5K0

SparkSQL并行执行多个Job的探索

spark sql 数据库 linux 编程算法

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

Spark学习技巧

2022-03-14

1.7K0

Java 性能优化：35 个小细节，提升你的 Java 代码运行效率

java c++编程算法

代码优化，一个很重要的课题。可能有些人觉得没用，一些细小的地方有什么好修改的，改与不改对于代码的运行效率有什么影响呢？这个问题我是这么考虑的，就像大海里面的鲸鱼一样，它吃一条小虾米有用吗？没用，但是，吃的小虾米一多之后，鲸鱼就被喂饱了。

Spark学习技巧

2022-03-14

3670

图谱实战 | 知识图谱构建的一站式平台gBuilder

http 编程算法 sql 知识图谱大数据

知识图谱能够让机器去理解和认知世界中的事物和现象，并解释现象出现的原因，推理出隐藏在数据之间深层的、隐含的关系，使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验，到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。

Spark学习技巧

2022-01-13

3.3K0

ETL工具算法构建企业级数据仓库五步法

数据库数据分析数据处理编程算法 sql

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。

Spark学习技巧

2022-01-13

1.1K0

数仓服务平台在唯品会的建设实践

sql 数据库云数据库 SQL Server 编程算法大数据

数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口，数据服务将数仓当作一个统一的 DB 来访问，提供统一的 API 接口控制数据的流入及流出，能够满足用户对不同类型数据的访问需求。

Spark学习技巧

2022-01-13

1K0

Flink深度学习流处理核心组件 Time&Window 深度解析

flink 大数据 processing 编程算法 unix

Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在 Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。

Spark学习技巧

2022-01-13

3280

面试官问JDK7和JDK8的HashMap不一样在哪里？我懵了

jdk hashmap 编程算法数据结构二叉树

相信大家在面试的时候，肯定很多人被问到HashMap，一般上来都是 HashMap 用过没有，说一下他的数据结构吧，但是阿粉的朋友去面试的时候，上来直接进入主题，HashMap 在 JDK7 和 JDK8 中出现了变化，你知道都是哪些不一样的地方么？有什么优缺点么？

Spark学习技巧

2022-01-13

2000

伴鱼：借助 Flink 完成机器学习特征系统的升级

特征工程云数据库 Redis 编程算法 bash flink

在伴鱼，我们在多个在线场景使用机器学习提高用户的使用体验，例如：在伴鱼绘本中，我们根据用户的帖子浏览记录，为用户推荐他们感兴趣的帖子；在转化后台里，我们根据用户的绘本购买记录，为用户推荐他们可能感兴趣的课程等。

Spark学习技巧

2022-01-12

5820

如何解决TOP-K问题

最近在开发一个功能:动态展示的订单数量排名前10的城市,这是一个典型的Top-k问题，其中k=10,也就是说找到一个集合中的前10名。实际生活中Top-K的问题非常广泛，比如：微博热搜的前100名、抖音直播的小时榜前50名、百度热搜的前10条、博客园点赞最多的blog前10名，等等如何解决这类问题呢？初步的想法是将这个数据集合排序,然后直接取前K个返回。这样解法可以，但是会存在一个问题：排序了很多不需要去排序的数据,时间复杂度过高.假设有数据100万,对这个集合进行排序需要很长的时间,即便使用快速排序,时间复杂度也是O(nlogn)，那么这个问题如何解决呢？解决方法就是以空间换时间,使用优先级队列

Spark学习技巧

2022-01-12

4860

Kafka Connect | 无缝结合Kafka构建高效ETL方案

kafka 编程算法 api 分布式 node.js

Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics，使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储，用于系统查询或者批量进行离线分析。

Spark学习技巧

2021-08-25

1.2K0

实战 | flink sql 与微博热搜的碰撞！！！

flink 大数据 sql 编程算法 kafka

根据微博目前站内词条消费情况，计算 top 50 消费热度词条，每分钟更新一次，并且按照列表展现给用户。

Spark学习技巧

2021-07-27

8940

Spark处理的一些业务场景

Sparksql在处理一些具体的业务场景的时候，可以通过算子操作，或者RDD之间的转换来完成负责业务的数据处理，在日常做需求的时候，整理出来一下几个经典的业务场景的解决方案，供大家参考。

Spark学习技巧

2021-07-27

6770

浅谈Hbase在用户画像上的应用

数据库 sql 编程算法大数据存储

用户画像，即用户信息标签化，是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面，主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、个性化推荐与精准营销等应用方向。

Spark学习技巧

2021-07-27

1.3K0

如何使用 Kafka、MongoDB 和 Maxwell’s Daemon 构建 SQL 数据库的审计系统

kafka 编程算法 mongodb 云数据库 MongoDB 数据库

审计日志系统有很多应用场景，而不仅仅是存储用于审计目的的数据。除了合规性和安全性的目的之外，它还能够被市场营销团队使用，以便于锁定目标用户，也可以用来生成重要的告警。

Spark学习技巧

2021-03-11

1.1K0

String 也能做性能优化，我只能说牛逼！

编程算法 jdk 打包

来自：https://blog.csdn.net/kkkkk0826/article/details/104171355

Spark学习技巧

2021-03-05

2900

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态