腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏作者

238

文章

255616

阅读量

42

订阅数

大数据生涯感悟

大数据 hadoop mapreduce spark hbase

　　不知不觉，毕业一年半了，从实习开始接触大数据技术。那时懵懂的我，不对，应该说懵逼的我在想，卧槽，这是啥这么牛逼，我都不会啊。。。啥都不会完蛋了。。即便现在也是这样认为= =

2018-09-06

7150

hdfs文件按修改时间下载

云数据库 SQL Server 数据库 sql 大数据

应用于：对于不同用户创建的表目录，进行文件的下载，程序中执行hadoop cat命令下载文件到本地，随后通过ftp传至目标服务器，并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据，与本批次下载的HDFS文件路径修改时间对比，如果改变，则决定是否下载文件：

2018-09-06

2K1

阿里入职一个月思考（随笔）

　　最近没怎么写技术博客了。。原因是，跳到了曾经期望的公司，还在做技术储备。。。如今入职一个月了，已经完全进入状态。同时，也带来更多思考与感悟。

2018-09-06

1K0

大数据理论体系总结--数据仓库管理与全链路数据体系

大数据分布式存储 hadoop spark

　　就这样，大数据领域蓬勃发展了好几年，有很多伙伴执迷于技术，成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据，成为了行业的数据研发专家。当然还有很多小伙伴，热衷于工具系统开发，成为了数据技术专家。那么我们回过头来考虑，什么是大数据，什么又是数据仓库，什么又是数据技术。大数据其实是个非常笼统的感念，它是由数据仓库演化而来的数据与技术方法论，那么我们先说一下数据仓库的由来：

2018-09-06

2.2K0

分布式系统简介

分布式大数据

　　研究生阶段学习的分布式原理与泛型几乎忘完了，当初不怎么懂。。。现在工作中发现大数据技术的底层还是分布式系统，那么重新拾起，总结下~

2018-09-06

1.3K0

Spark on Yarn年度知识整理

spark yarn 大数据分布式

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

2018-09-06

1.2K0

海量数据处理技术学习

数据处理 mapreduce 分布式大数据

　　外排序：因为海量数据无法全部装入内存，所以数据的大部分存入磁盘中，小部分在排序需要时存入内存。

2018-09-06

5800

Spark工程开发前台技术实现与后台函数调用

spark 大数据分布式 hadoop

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

2018-09-06

1.1K0

Hadoop I/O操作原理整理

hadoop 编程算法 rpc 大数据

　　校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况，如果两者不同则说明数据已经损坏。比如，在传输数据前生成了一个校验和，将数据传输到目的主机时再次计算校验和，如果两次的校验结果不同，则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统，因此具有两方面的数据完整性。

2018-09-06

3660

Hadoop的管理目录

大数据 hadoop node.js

1、NameNode的文件结构,NameNode会创建VERSION、edits、fsimage、fstime文件目录。其中dfs.name.dir属性是一个目录列表，是每个目录的镜像文件。VERSION文件是JAVA属性文件，其中包含运行HDFS的版本信息。包含内容:

2018-09-06

7160

Flink单机版安装与wordCount

spark http 大数据 hadoop

Flink为大数据处理工具，类似hadoop,spark.但它能够在大规模分布式系统中快速处理，与spark相似也是基于内存运算，并以低延迟性和高容错性主城，其核心特性是实时的处理流数据。从此大数据生态圈又再填一员。。。具体详解，还要等之后再分享，这里就先简要带过~

2018-09-06

1.3K0

Hadoop 2.6.0集群搭建

hadoop yum xml 大数据 ssh

yum install autoconfautomake libtool cmake

2018-09-06

2250

SparkSQL项目中的应用

spark sql 大数据分布式

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

2018-09-06

7280

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态