首页
学习
活动
专区
工具
TVP
发布

大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
149
文章
318204
阅读量
95
订阅数
Scrapy源码解读
Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。
大数据技术架构
2023-03-08
6760
数据血缘分析-Python代码的智能解析
如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?
大数据技术架构
2022-12-01
1.6K0
干货 | 再来聊一聊 Parquet 列式存储格式
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2021-08-25
1.9K0
Spark 闭包(Task not serializable)问题分析及解决
在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序列化问题,这里对其进行了研究和总结。
大数据技术架构
2021-07-29
4K0
基于Telegraf+Influxdb+Grafana的监控平台介绍
我们知道这种监控平台的数据特征一般都是时间序列数据(简称 时序数据),那么相应的这些数据最好是存储在时序数据库中,目前主流的时序数据库有InfluxDB、OpenTSDB、Graphite、TimescaleDB等。其中,InfluxDB是目前监控领域使用较多的时序数据库,并且基于InfluxDB有一套完善的开源解决方案 —— TICK Stack,如下图所示:
大数据技术架构
2019-09-08
1.8K0
这一次彻底搞懂:分布式系统原理
在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进程实际上由若干相对独立部分构成,则在模型中可以将一个进程划分为多个节点。
大数据技术架构
2019-08-16
2K0
分布式系统如何保证一致性
随着各种高并发访问、海量数据处理等应用场景越来越多,为了应对这些使用场景,分布式系统应运而生。分布式系统得以发展,得益于诸多优点,比如:可以避免单点故障,容易横向扩展等。所谓单点故障指的是:单个组件发生故障会导致整个系统的瘫痪,而容易横向扩展的意思是我们可以通过增加机器来提高整个系统的性能。分布式系统在带来诸多优点的同时,也带来了一些挑战,我们下面来重点描述清楚其中的一个核心挑战:在分布式系统中如何保证数据的一致性。关于分布式系统的基本概念,可以参考相关的理论书籍。
大数据技术架构
2019-08-16
7640
Kafka 的 20 项最佳优化实践
本文整理于网络翻译,英文原文:https://blog.newrelic.com/engineering/kafka-best-practices/
大数据技术架构
2019-08-16
1.7K0
Raft 协议学习笔记
常见的一致性协议主要有:PaxOS、Raft、ZAB、PacificA等。同PaxOS,Raft也不考虑拜占庭将军问题(Byzantine failures,注:比特币采用工作量证明PoW和股权证明PoS解决了拜占庭将军问题)。
大数据技术架构
2019-08-16
7390
你可能不知道的Redis用法
基于Redis丰富的数据结构,除了充当缓存层来提升查询效率以外,还能应用在很多常见的场景,比如:分布式锁,消息队列,限流等。看到这些场景你可能会有疑问,Redis在这些领域好像并不出名啊,比如消息队列,出名的有Rocketmq、rabbitmq等等,很少听Redis来做这个场景,是不是存在什么问题?是的,下面的文字就来总结下Redis在这些场景的常规用法以及存在的问题。
大数据技术架构
2019-08-16
6300
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档