首页
学习
活动
专区
工具
TVP
发布

大数据和云计算技术

专栏成员
298
文章
455997
阅读量
101
订阅数
大数据与云计算技术周报(第161期)
本文主要从以下四个方面介绍:Spark SQL 在字节跳动的应用;什么是分桶;Spark 分桶的限制;字节跳动在分桶方面的优化。
大数据和云计算技术
2020-09-29
7070
大数据和云计算技术周报(第134期)
本文主要对Spark读取HBase Snapshort表进行了相关优化,剖析了部分源码,对部分源码进行了重写与改造,最终实现了HBase表的高效率读
大数据和云计算技术
2019-12-31
4610
大数据与云计算技术周报(第128期)
分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。
大数据和云计算技术
2019-11-19
6390
大数据和云计算技术周报(第127期)
通过java去实现, 基于AOP和Redis实现对接口调用情况的接口及IP限流,调用每个接口,实现正常与异常的调用,并限制同一个ip地址多次调用,文章中讲解了如何设计,以及事列代码
大数据和云计算技术
2019-11-04
5790
HBaseSQL及分析-Phoenix&Spark
本文介绍了详细了HBaseSQL,Phoinix和Spark的架构,适用性以及优缺点,并在最后规划出未来将要设计的一款更符合用户需求的产品。
大数据和云计算技术
2019-09-24
7440
Spark On HBase
MapReduce早已经对接了HBase,以HBase作为数据源,完成批量数据的读写。如今继MapReduce之后的Spark在大数据领域有着举足轻重的地位,无论跑批,流处理,甚至图计算等都有它的用武之地。Spark对接HBase成为不少用户的需求。
大数据和云计算技术
2019-09-24
1.1K0
Spark中的RDD介绍
我们在研究WordCount的时候碰到了很多诸如JavaRDD、Function之类的字眼,其实这些个代码逻辑就是我们以后日日夜夜不断去写去改的那部分程序了,从某种程度上来讲,完成一道spark的作业题,基本也就是去设计我们的rdd和function了。既然话都说到这份上了,建立感情需要从认识开始。在前面的文章已经确认过眼神了,这次当然是正式介绍。
大数据和云计算技术
2019-09-24
5730
JAVA&大数据架构方向 同与异?
架构不是一个职业而是一种能力,每一种架构师只不过是在不同的领域里面使用不同的技术,没有什么可对比,就好比如你问一个篮球明星和一个足球明星有什么区别一样!
大数据和云计算技术
2019-09-24
6220
大数据和云计算技术周报(第94期)
本文主要介绍了基于 Apache HBase 与 Google SimHash 等多种算法共同实现的一套支持百亿级文本数据相似度计算与快速去重系统的设计与实现。
大数据和云计算技术
2019-09-24
4190
spark关键版本简要梳理
好久没有看spark了,发现spark都开始发力AI了。简单梳理下spark的发展脉络如下:
大数据和云计算技术
2019-09-24
3220
大数据和云计算技术周报(第91期)
文章首先回顾了 HBase 的数据模型和数据层级结构,对数据的每个层级的作用和构架均进行了详细阐述;随后介绍了数据写入和读取的详细流程;最后介绍了老版本到新版本 Region 查找的演进。
大数据和云计算技术
2019-09-24
4850
HBase实战 | HBase在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储起来,这些数据的特点主要有如下几点:
大数据和云计算技术
2019-09-24
1.2K0
大数据和云计算技术周报(第112期)
ClickHouse 优秀的读写处理性能,丰富强大的函数支持,以及灵活的 SQL 查询,支撑了微博广告监控系统的百亿流量请求和复杂业务需求。
大数据和云计算技术
2019-07-23
7320
大数据和云计算技术周报(第107期)
Spark应用中,Shuffle服务的可靠性和性能直接影响了Spark应用的执行效率,来自Facebook的Brian Cho与Dmitry Borovsky在今年4月份旧金山举行的Spark AI峰会上,分享了他们为Spark/Hive Shuffle优化做的工作,这些工作中的很大部分已经应用于Facebook的大数据平台生产环境,对于超大规模的Spark数据处理优化,有一定的参考借鉴价值。
大数据和云计算技术
2019-06-20
7300
大数据和云计算技术周报(第101期)
https://mp.weixin.qq.com/s/omMwlbASRp6keXhEf3TDRw
大数据和云计算技术
2019-05-14
5130
大数据和云计算技术周报(第76期)
大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
大数据和云计算技术
2018-12-12
6740
kafka stream简要分析
kafka历史背景 Kafka是2010年Kafka是Linkedin于2010年12月份开源的消息系统,我接触的不算早,大概14年的时候,可以看看我们14年写的文章《高速总线kafka介绍》。 消息总线一直是作IT系统集成的核心概念,IBM/oracle等传统厂商都有相关中间件产品。传统消息中间件解决是消息的传输,一般支持AMQP协议来实现,如RabbitMQ。AMQP的主要特征是面向消息、队列、路由(包括点对点和发布/订阅)、可靠性、安全。AMQP协议更多用在企业系统内,对数据一致性、稳定性和可靠性要求
大数据和云计算技术
2018-03-08
1.3K0
深度学习的历史和趋势
引言: 本文是黄文辉同学的第4篇文章,前面三篇分别是: SparkStreaming窗口操作 sqoop数据导入总结 SparkStreaming入门 最近AI领域真的很热,国际国内,大小巨头都投入巨
大数据和云计算技术
2018-03-08
1.7K0
Spark这是要一统江湖的节奏
Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。 Spark一直以来想做的一个事情就是统一整个大数据
大数据和云计算技术
2018-03-08
7230
flink二三事(2):起家的技术
上一篇聊到flink的历史,请看上篇 flink两三事 ----(1)历史。 可以说基本上是起了个大早,赶了个晚集,但是flink能做今天这种热度,没有被spark干死也是不容易。原来大家都在想办法突破MapReduce太慢的问题时候,除了spark,比如还有Tez等框架基本上销声匿迹了。14年flink在apache孵化能活下来并成为顶级项目的关键还是flink的有些自己的创新技术。 Spark的核心概念是RDD,抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操
大数据和云计算技术
2018-03-08
1.2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档