腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据技术架构
纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
举报
149
文章
318204
阅读量
95
订阅数
订阅专栏
申请加入专栏
全部文章(149)
sql(32)
hbase(32)
spark(29)
大数据(29)
kafka(29)
数据库(28)
TDSQL MySQL 版(21)
存储(21)
hive(14)
apache(12)
缓存(12)
https(11)
api(10)
编程算法(10)
分布式(10)
Elasticsearch Service(10)
hadoop(9)
云数据库 SQL Server(8)
文件存储(8)
消息队列 CMQ 版(8)
网络安全(8)
flink(8)
mapreduce(7)
jvm(7)
数据湖(7)
python(6)
zookeeper(6)
数据处理(6)
node.js(5)
云数据库 Redis(5)
http(5)
数据分析(5)
linux(4)
mongodb(4)
开源(4)
windows(4)
云计算(4)
java(3)
搜索引擎(3)
lucene/solr(3)
网站(3)
日志数据(3)
jdk(3)
数据结构(3)
实时数仓(3)
javascript(2)
bash(2)
scala(2)
html(2)
打包(2)
ide(2)
unix(2)
bash 指令(2)
云数据库 MongoDB(2)
企业(2)
数据迁移(2)
socket编程(2)
数据可视化(2)
系统架构(2)
es(2)
负载均衡(1)
区块链(1)
数字货币(1)
机器学习(1)
tensorflow(1)
ios(1)
swift(1)
c++(1)
react(1)
ecmascript(1)
android(1)
oracle(1)
nosql(1)
tomcat(1)
全文检索(1)
负载均衡缓存(1)
nginx(1)
容器镜像服务(1)
神经网络(1)
深度学习(1)
专用宿主机(1)
批量计算(1)
数据备份(1)
容器(1)
devops(1)
运维(1)
压力测试(1)
爬虫(1)
jdbc(1)
hashmap(1)
tcp/ip(1)
scrapy(1)
rpc(1)
rabbitmq(1)
微服务(1)
特征工程(1)
性能测试(1)
数据集成(1)
搜索文章
搜索
搜索
关闭
Scrapy源码解读
scrapy
爬虫
编程算法
http
python
Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。
大数据技术架构
2023-03-08
676
0
数据血缘分析-Python代码的智能解析
sql
编程算法
打包
python
如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?
大数据技术架构
2022-12-01
1.6K
0
干货 | 再来聊一聊 Parquet 列式存储格式
hive
存储
文件存储
编程算法
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2021-08-25
1.9K
0
Spark 闭包(Task not serializable)问题分析及解决
文件存储
编程算法
spark
scala
在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序列化问题,这里对其进行了研究和总结。
大数据技术架构
2021-07-29
4K
0
基于Telegraf+Influxdb+Grafana的监控平台介绍
编程算法
数据库
sql
大数据
网站
我们知道这种监控平台的数据特征一般都是时间序列数据(简称 时序数据),那么相应的这些数据最好是存储在时序数据库中,目前主流的时序数据库有InfluxDB、OpenTSDB、Graphite、TimescaleDB等。其中,InfluxDB是目前监控领域使用较多的时序数据库,并且基于InfluxDB有一套完善的开源解决方案 —— TICK Stack,如下图所示:
大数据技术架构
2019-09-08
1.8K
0
这一次彻底搞懂:分布式系统原理
数据库
sql
分布式
编程算法
在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进程实际上由若干相对独立部分构成,则在模型中可以将一个进程划分为多个节点。
大数据技术架构
2019-08-16
2K
0
分布式系统如何保证一致性
编程算法
分布式
随着各种高并发访问、海量数据处理等应用场景越来越多,为了应对这些使用场景,分布式系统应运而生。分布式系统得以发展,得益于诸多优点,比如:可以避免单点故障,容易横向扩展等。所谓单点故障指的是:单个组件发生故障会导致整个系统的瘫痪,而容易横向扩展的意思是我们可以通过增加机器来提高整个系统的性能。分布式系统在带来诸多优点的同时,也带来了一些挑战,我们下面来重点描述清楚其中的一个核心挑战:在分布式系统中如何保证数据的一致性。关于分布式系统的基本概念,可以参考相关的理论书籍。
大数据技术架构
2019-08-16
764
0
Kafka 的 20 项最佳优化实践
kafka
编程算法
https
网络安全
本文整理于网络翻译,英文原文:https://blog.newrelic.com/engineering/kafka-best-practices/
大数据技术架构
2019-08-16
1.7K
0
Raft 协议学习笔记
编程算法
分布式
云数据库 Redis
zookeeper
常见的一致性协议主要有:PaxOS、Raft、ZAB、PacificA等。同PaxOS,Raft也不考虑拜占庭将军问题(Byzantine failures,注:比特币采用工作量证明PoW和股权证明PoS解决了拜占庭将军问题)。
大数据技术架构
2019-08-16
739
0
你可能不知道的Redis用法
数据结构
云数据库 Redis
消息队列 CMQ 版
kafka
编程算法
基于Redis丰富的数据结构,除了充当缓存层来提升查询效率以外,还能应用在很多常见的场景,比如:分布式锁,消息队列,限流等。看到这些场景你可能会有疑问,Redis在这些领域好像并不出名啊,比如消息队列,出名的有Rocketmq、rabbitmq等等,很少听Redis来做这个场景,是不是存在什么问题?是的,下面的文字就来总结下Redis在这些场景的常规用法以及存在的问题。
大数据技术架构
2019-08-16
630
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档