腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
木东居士的专栏
专栏成员
举报
222
文章
424535
阅读量
178
订阅数
订阅专栏
申请加入专栏
全部文章(222)
大数据(60)
编程算法(49)
数据分析(45)
机器学习(38)
神经网络(30)
深度学习(25)
sql(24)
人工智能(21)
数据挖掘(15)
数据可视化(15)
java(14)
数据库(14)
https(13)
其他(12)
网络安全(12)
数据处理(11)
python(10)
决策树(8)
spark(7)
hive(7)
数据结构(7)
hadoop(5)
api(4)
企业(4)
数据安全(4)
存储(4)
开源(4)
线性回归(4)
微服务(4)
html(3)
腾讯云开发者社区(3)
数据湖(3)
app(3)
费用中心(2)
官方文档(2)
oracle(2)
mapreduce(2)
电商(2)
游戏(2)
爬虫(2)
推荐系统(2)
特征工程(2)
报表(2)
产品(2)
产品经理(2)
设计(2)
事件(2)
数据仓库(2)
node.js(1)
jquery(1)
json(1)
单片机(1)
云数据库 SQL Server(1)
nosql(1)
git(1)
github(1)
搜索引擎(1)
apache(1)
命令行工具(1)
TDSQL MySQL 版(1)
检测工具(1)
知识图谱(1)
腾讯云测试服务(1)
金融风控(1)
http(1)
分布式(1)
自动化(1)
缓存(1)
运维(1)
正则表达式(1)
erp(1)
面向对象编程(1)
jdbc(1)
监督学习(1)
scrapy(1)
dubbo(1)
scikit-learn(1)
windows(1)
系统架构(1)
hbase(1)
云计算(1)
flink(1)
腾讯云图数据可视化(1)
数据集成(1)
bi(1)
bitmap(1)
el(1)
event(1)
excel(1)
find(1)
model(1)
pmp(1)
publish(1)
text(1)
管理(1)
开发(1)
优化(1)
搜索文章
搜索
搜索
关闭
OLAP数据库初探
hive
spark
https
网络安全
sql
OLAP的标准概念叫作“联机分析处理系统”,与之对应的是OLTP“联机事务处理系统”。OLTP对于事务性的要求非常高,常用于银行、证券等系统,但运行速度相对有限。有感于此,关系数据库之父Codd便在1993年提出了OLAP的概念,认为用户的很多决策需要依赖大量的计算与多维的分析才能解决,并作为一类单独的产品,与OLTP区分开来。
木东居士
2020-07-27
3.1K
0
憋瞎说,大数据不是你想的那样!
sql
spark
java
大数据
hive
学生党以及很多没设计过大数据开发的小伙伴呢,都对大数据这么一个领域感到非常非常的好奇非常非常的神秘,我今天就非要戳穿给你们看。
木东居士
2019-09-29
486
0
AI研发工程师成长指南
编程算法
spark
开源
机器学习
深度学习
关于作者:Japson。某人工智能公司AI平台研发工程师,专注于AI工程化及场景落地。持续学习中,期望与大家多多交流技术以及职业规划。
木东居士
2019-08-26
1.1K
0
聊一聊数据倾斜那些坑
spark
大数据
hadoop
hive
sql
0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 文章结构 先大致解释一下什么是数据倾斜 再根据几个场景来描述一下数据倾斜产生的情况 详细分析一下在Hadoop和Spark中产生数据倾斜的原因 如何解决(优化)数据倾斜问题? 0x01 什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的
木东居士
2018-05-25
1.1K
0
Spark源码解析:RDD
spark
0x00 前言 本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。 本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。 文章结构 先回顾一下RDD的一些特征以及几个基本概念 RDD源码分析,整体的源码设计 举一个例子,通过这个例子来一步步地追踪源码。 0x01 概念 什么是RDD RDD(Resilient Distributed Dataset):弹性分布式数据集。 我们可以先大致这样理解RDD:RDD是一个
木东居士
2018-05-25
2.6K
1
Spark源码解析:DStream
spark
数据结构
0x00 前言 本篇是Spark源码解析的第二篇,主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。 本篇主要来分析Spark Streaming中的Dstream,重要性不必多讲,明白了Spark这个几个数据结构,容易对Spark有一个整体的把握。 和RDD那篇文章类似,虽说是分析Dstream,但是整篇文章会围绕着一个具体的例子来展开。算是对Spark Streaming源码的一个概览。 文章结构 Spark Streaming的一些概念,主要和Dstream
木东居士
2018-05-25
879
0
用MPI进行分布式内存编程(入门篇)
分布式
hadoop
spark
0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架蓬勃发展的今天,老的分布式编程模型是否没有必要学习?这个很难回答,但是我更倾向于花一个下午的时候来学习和了解它。 关于并发和并行编程系列的文章请参考文章集合 文章结构 举个最简单的例子,通过这个例子让大家对MPI有一个基本的理解。 解释一些和MPI相关的概念。 列举一些MPI的常用函数
木东居士
2018-05-25
4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档