专栏首页大数据和云计算技术大数据与云计算技术周报(第128期)

大数据与云计算技术周报(第128期)

导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:hive、Spark、Cassandra、MongoDB、数据仓库、OLAP、Redis、Hbase、Spark、。全是干货,希望大家喜欢!!!

1Hive

分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。

在数据分析领域,经常需要计算数据集不同元素的个数(Distinct值),也称为基数计算。精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。目前已经出现了一些优秀的基数估值算法,例如HLLC(HyperLogLog Counting)等。

TDW引入了HLLC算法,用户可以写HQL简单的使用它。在能够容忍一定精度损失的前提下,HLLC算法往往拥有比精确计算高得多的计算效率。HLLC算法在TDW上已经取得了较多的应用并且收到了较好的效果。

本文不打算介绍HLLC算法的原理,有兴趣的读者可以参考Flajolet的论文《HyperLogLog: The analysis of a near-optimal cardinality estimation algorithm》。

https://data.qq.com/article?id=809

2数据仓库

大量用户的使用,驱动着在数据中台建设的路上不断前进。如何将新兴技术能力应用到数据仓库的建设,如何以有限的成本高效解决企业在数据建设中面临的问题,将是马蜂窝数仓建设一直的思考。

https://mp.weixin.qq.com/s/r-cg-aXhp14FWgHcMY6Vdw

3OLAP

本文讲解了小米集存储计算于一体的分布式数据分析型数据库服务的OLAP。

https://mp.weixin.qq.com/s/pE40rm9HOBe9b8f1tXxoog

4Redis

Redis是一种内存数据存储,可用作数据库,缓存和消息代理。它支持从简单到复杂的数据结构,包括哈希,字符串,排序集,位图,地理空间数据等。在本指南中,我们将演示如何使用一些不同的工具和方法对在Ubuntu 18.04上运行的Redis服务器的性能进行基准测试

https://www.digitalocean.com/community/tutorials/how-to-perform-redis-benchmark-tests

5Spark

本文作者 Raja Sekar 已经有三年多 Spark 的使用经验,他认为 Spark 的 DataFrame 非常优秀,可以解决大多数分析工作负载问题,但仍然有一些地方使用 RDD 会更方便。于是,他萌生出了一个使用原生语言重新实现 Spark 的想法,想看看重写后在性能和资源管理效率方面可以达到怎样的效果。最后他选择了最近很火的 Rust,重写后的 FastSpark 不仅在运行速度上比 Spark 更快,而且能够节省相当多的内存,作者接下来的目标也很简单:将其作为 Apache Spark 的替代方案

https://mp.weixin.qq.com/s/F9mGwxkpYjprx2DWD__nBQ

6Hbase

本文主要讲述了用HBase存放时空数据的缺陷及常用的时空索引技术。https://mp.weixin.qq.com/s/GEF3jdUvqRW00ArzLB08fg

7数据安全

大数据时代,数据是最重要的。从个人角度来看,衣食住行都会产生数据,包含着最基本的个人信息以及历史消费记录等等。如果被盗,就会造成财产损失甚至更严重的后果;从企业来看,数据是市场竞争的关键部分,而保护用户的数据安全是最基本的责任,事关企业发展与信誉等等。。

https://mp.weixin.qq.com/s/k5qCwa1bpw0QPfFlAwo2AQ

8mangoDB

本文讲述了MongoDB的一个工单分析服务,经常性发出操作超时问题分析,并通过防止索引seeks操作来解决此问题;

https://cloud.tencent.com/developer/article/1509697

9Redis

针对“附近的人”这一位置服务领域的应用场景,Redis结合其有序队列zset以及geohash编码,实现了空间搜索功能,且拥有极高的运行效率。本文将从源码角度对其算法原理进行解析,并推算查询时间复杂度。

https://mp.weixin.qq.com/s/72Ztx8eehxzA7T8fHy0D5Q

本文分享自微信公众号 - 大数据和云计算技术(jiezhu2007)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Redis乐观锁实现一个秒杀系统

    大多数是基于数据版本(version)的记录机制实现的。即为数据增加一个版本标识,在基于数据库表的版本解决方案中,一般是通过为数据库表增加一个”version”...

    攻城狮的那点事
  • 面试官: 两个Redis实例怎么快速对比哪些数据不一致

    redis-full-check 是阿里云Redis&MongoDB团队开源的用于校验2个redis数据是否一致的工具,支持单节点、主从、集群版、以及多种pro...

    冷冷
  • 面试官问我:Redis 内存满了怎么办?

    我们知道Redis是基于内存的key-value数据库,因为系统的内存大小有限,所以我们在使用Redis的时候可以配置Redis能使用的最大的内存大小。

    用户4143945
  • Redis如何高效可靠地实现主从复制?终于有人讲明白了

    Redis支持主从复制功能,用户可以通过执行slaveof命令或者在配置文件中设置slaveof选项来开启复制功能。例如,现在有两台服务器—127.0.0.1:...

    华章科技
  • 详解 Redis 内存管理机制和实现

    Redis是一个基于内存的键值数据库,其内存管理是非常重要的。本文内存管理的内容包括:过期键的懒性删除和过期删除以及内存溢出控制策略。

    remcarpediem
  • Redis入门-贰

    在上次的Redis的文章中,大致的讲了下Redis是什么,为什么使用Redis,Redis为什么适用于做缓存以及对它的5种数据类型做的简单介绍。

    用户5521279
  • 上次阿里面试问到Redis主从复制原理,这次终于搞明白了!

    Redis单节点存在单点故障,为解决单点问题,需要对Redis节点配置从节点。使用哨兵来监听主节点存活状态,若主节点挂掉,从节点能继续提供缓存功能。从节点怎样和...

    程序员追风
  • 「微服务架构」我们如何设计配额微服务来防止资源滥用

    随着业务的增长,Grab的基础设施已经从一个单一的服务变成了几十个微服务。这个数字很快就会以数百的形式出现。随着我们的工程团队并行发展,拥有一个微服务框架可以提...

    首席架构师智库
  • 青出于蓝 | 比Redis快5倍的KeyDB

    KeyDB与Redis协议,模块和脚本完全兼容。这包括对事务的完全支持和脚本的原子执行。

    王知无
  • 揭开Redis“附近的人”的神秘面纱

    前言:针对“附近的人”这一位置服务领域的应用场景,常见的可使用PG、MySQL和MongoDB等多种DB的空间索引进行实现。而Redis另辟蹊径,结合其有序队列...

    黄泽杰

扫码关注云+社区

领取腾讯云代金券