腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
个人分享
专栏作者
举报
238
文章
255616
阅读量
42
订阅数
订阅专栏
申请加入专栏
全部文章(238)
其他(116)
spark(43)
hadoop(22)
java(18)
sql(15)
编程算法(14)
存储(14)
人工智能(13)
大数据(13)
hbase(13)
mapreduce(12)
分布式(12)
apache(11)
hive(10)
api(9)
数据库(7)
云数据库 SQL Server(6)
linux(6)
zookeeper(6)
node.js(5)
xml(5)
云数据库 Redis(5)
缓存(5)
企业组织(5)
TDSQL MySQL 版(4)
mongodb(4)
决策树(4)
rpc(4)
数据挖掘(3)
.net(3)
json(3)
yarn(3)
shell(3)
yum(3)
数据处理(3)
机器学习(2)
bash(2)
servlet(2)
scala(2)
spring(2)
ssh(2)
面向对象编程(2)
jdbc(2)
hashmap(2)
grep(2)
数据结构(2)
自动驾驶(1)
bootstrap(1)
html(1)
oracle(1)
memcached(1)
mvc(1)
nginx(1)
bash 指令(1)
神经网络(1)
深度学习(1)
企业(1)
http(1)
容器(1)
jdk(1)
jvm(1)
erp(1)
监督学习(1)
二叉树(1)
ntp(1)
安全(1)
https(1)
架构设计(1)
nat(1)
kafka(1)
任务调度(1)
int(1)
io(1)
push(1)
selection(1)
队列(1)
工作(1)
搜索文章
搜索
搜索
关闭
大数据生涯感悟
大数据
hadoop
mapreduce
spark
hbase
不知不觉,毕业一年半了,从实习开始接触大数据技术。那时懵懂的我,不对,应该说懵逼的我在想,卧槽,这是啥这么牛逼,我都不会啊。。。啥都不会完蛋了。。即便现在也是这样认为= =
用户3003813
2018-09-06
715
0
hdfs文件按修改时间下载
云数据库 SQL Server
数据库
sql
大数据
应用于:对于不同用户创建的表目录,进行文件的下载,程序中执行hadoop cat命令 下载文件到本地,随后通过ftp传至目标服务器,并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据,与本批次下载的HDFS文件路径修改时间对比,如果改变,则决定是否下载文件:
用户3003813
2018-09-06
2K
1
阿里入职一个月思考(随笔)
大数据
最近没怎么写技术博客了。。原因是,跳到了曾经期望的公司,还在做技术储备。。。如今入职一个月了,已经完全进入状态。同时,也带来更多思考与感悟。
用户3003813
2018-09-06
1K
0
大数据理论体系总结--数据仓库管理与全链路数据体系
大数据
分布式
存储
hadoop
spark
就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术。大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来:
用户3003813
2018-09-06
2.2K
0
分布式系统简介
分布式
大数据
研究生阶段学习的分布式原理与泛型几乎忘完了,当初不怎么懂。。。现在工作中发现大数据技术的底层还是分布式系统,那么重新拾起,总结下~
用户3003813
2018-09-06
1.3K
0
Spark on Yarn年度知识整理
spark
yarn
大数据
分布式
Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。
用户3003813
2018-09-06
1.2K
0
海量数据处理技术学习
数据处理
mapreduce
分布式
大数据
外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存。
用户3003813
2018-09-06
580
0
Spark工程开发前台技术实现与后台函数调用
spark
大数据
分布式
hadoop
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。
用户3003813
2018-09-06
1.1K
0
Hadoop I/O操作原理整理
hadoop
编程算法
rpc
大数据
校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况,如果两者不同则说明数据已经损坏。比如,在传输数据前生成了一个校验和,将数据传输到目的主机时再次计算校验和,如果两次的校验结果不同,则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统,因此具有两方面的数据完整性。
用户3003813
2018-09-06
366
0
Hadoop的管理目录
大数据
hadoop
node.js
1、NameNode的文件结构,NameNode会创建VERSION、edits、fsimage、fstime文件目录。其中dfs.name.dir属性是一个目录列表,是每个目录的镜像文件。VERSION文件是JAVA属性文件,其中包含运行HDFS的版本信息。包含内容:
用户3003813
2018-09-06
716
0
Flink单机版安装与wordCount
spark
http
大数据
hadoop
Flink为大数据处理工具,类似hadoop,spark.但它能够在大规模分布式系统中快速处理,与spark相似也是基于内存运算,并以低延迟性和高容错性主城,其核心特性是实时的处理流数据。从此大数据生态圈又再填一员。。。具体详解,还要等之后再分享,这里就先简要带过~
用户3003813
2018-09-06
1.3K
0
Hadoop 2.6.0集群搭建
hadoop
yum
xml
大数据
ssh
yum install autoconfautomake libtool cmake
用户3003813
2018-09-06
225
0
SparkSQL项目中的应用
spark
sql
大数据
分布式
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。
用户3003813
2018-09-06
728
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档