首页标签大数据

#大数据

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

Elasticsearch 索引容量管理实践

姚俊刚

腾讯 · 高级工程师 (已认证)

Elasticsearch是目前大数据领域最热门的技术栈之一,腾讯云 Elasticsearch Service(ES)是基于开源搜索引擎 Elasticsea...

875140

ClickHouse中的低基数字段优化

Nauu

在ClickHouse中,String字符串类型相比其他数据类型而言,一个显著的差异是String类型的大小是不固定的。所以除了常规的列字段压缩手段之外,还延伸...

12740

HBase实践 | HBase IO优化与高可用建设

大数据技术架构

在CAP能力模型表现方面,hbase主要是面向CP的应用系统,针对数据写入可以满足强一致性需求,从客户端视角来看写入成功之后的数据是即时可见的。然而hbase的...

13530

腾讯Elasticsearch海量规模背后的内核优化剖析

黄华

前面就是所有的内核优化的内容。ES 是一款很优秀的开源大数据产品,我们将持续的建设。我们对公司内外提供了完整的托管平台,对 ES 内核各个层面做了系统性的增强优...

1.9K171

Druid源码阅读(二):Druid Segment存储格式

2011aad

腾讯 · 后台开发 (已认证)

Druid流数据摄入后会以Index形式保存在内存中,同时会定期将Index序列化成Segment文件持久化到可靠存储中(如HDFS),批数据摄入会直接通过离线...

29060

腾讯Elasticsearch海量规模背后的内核优化剖析

黄华

前面就是所有的内核优化的内容。ES 是一款很优秀的开源大数据产品,我们将持续的建设。我们对公司内外提供了完整的托管平台,对 ES 内核各个层面做了系统性的增强优...

31731

Executor源码分析

幽鸿

腾讯 · 高级工程师 (已认证)

Executor源码的最主要代码是TaskRunner,TaskRunner是一个多线程,首先看其runner方法:

10040

精品教学案例 | 利用分类模型预测学生成绩等级

数据酷客

北京博雅大智慧科技有限公司 · 产品运营 (已认证)

本案例适合作为大数据专业数据科学导引或机器学习实践课程的分类模型章节的实践教学案例。通过本案例,能够达到以下教学效果:

25940

TaskScheduler源码解读

幽鸿

腾讯 · 高级工程师 (已认证)

这里调用了taskScheduler接口,我们打开TaskScheduler trait,trait在scala里就是接口,在IDEA中查看实现的类,使用快捷键...

11120

DAGScheduler源码解读2-task创建

幽鸿

腾讯 · 高级工程师 (已认证)

在上一篇文章中,我们分析了DAGScheduler的代码,重点了解了stage的创建和划分,是重中之重。这篇文章重点分析下task的创建:

12040

【大数据】Spark优化经验&案例--数据倾斜

onephone

腾讯 · 工程师 (已认证)

41480

Pandas疫情探索性分析

数据酷客

北京博雅大智慧科技有限公司 · 产品运营 (已认证)

新型冠状病毒感染的肺炎疫情爆发后,对人们的生活产生很大的影响。当前感染人数依然在不断变化。每天国家卫健委和各大新闻媒体都会公布疫情的数据,包括累计确诊人数、现有...

31630

新闻动态 | 腾讯优图再次刷新三大ReID公开数据集纪录,首位命中率最高近99%

优图实验室

腾讯优图实验室 · 产品运营 (已认证)

虽然ReID技术已经过多年的演进,但现实中复杂多变的场景,也让跨场景识别(cross-domain person re-identification)成为ReI...

10020

强化学习系列案例 | 利用Q-learning求解悬崖寻路问题

数据酷客

北京博雅大智慧科技有限公司 · 产品运营 (已认证)

悬崖寻路问题(CliffWalking)是强化学习的经典问题之一,智能体最初在一个网格的左下角中,终点位于右下角的位置,通过上下左右移动到达终点,当智能体到达终...

22140

Java大数据开发怎么学习比较好?

加米谷大数据

基于大数据平台进行应用开发是系统掌握大数据技术的重要一步,这个过程会全面锻炼自身的大数据开发能力。在具体应用的开发上,最好能够结合自身的岗位任务,这样不仅会有更...

7610

数据科学通识第二讲:数据科学

数据酷客

北京博雅大智慧科技有限公司 · 产品运营 (已认证)

数据科学是一门交叉学科,主要研究如何利用科学的方法、过程、算法或系统,从结构化的或非结构化的数据中提炼知识、洞察规律、获得见解。

18240

使用ClickHouse快速实现同比、环比分析 ("开窗函数")

Nauu

在一些提供了开窗函数的数据库中(如Oracle、Hive),可以利用lag()、lead()函数配合over(),非常方便的实现同比和环比的查询。

45020

腾讯健康码16亿亮码背后的Elasticsearch系统调优实践

腾讯云ES团队

腾讯 · ES技术支持 (已认证)

Elasticsearch(以下简称ES)是近年来炙手可热的开源分布式搜索分析引擎,通过简单部署,就可以轻松实现日志实时分析、全文检索、结构化数据分析等多重诉求...

51430

Hadoop/Spark读写ES之性能调优

ethanzhang

腾讯 · 高级工程师 (已认证)

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

37920

SparkContext源码解读

幽鸿

腾讯 · 高级工程师 (已认证)

TaskSceduler在具体创建的时候,是由不同发布模式比如standalone、yarn、mesos决定的,返回一个SchedulerBackend.

25730

扫码关注云+社区

领取腾讯云代金券