首页
学习
活动
专区
工具
TVP
发布

黑泽君的专栏

专栏成员
708
文章
1752886
阅读量
103
订阅数
【Hadoop & Ecilpse】
  使用本机 Ecilpse  (Windows环境) 去访问远程 hadoop 集群出现以下异常:
黑泽君
2019-05-12
9230
【转载】Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)
Mike Olson(迈克尔·奥尔森) 是 Hadoop 运动背后的主要推动者,但这还远远不够,目前 Google 内部使用的大数据软件 Dremel 使大数据处理起来更加智能。
黑泽君
2019-05-08
1.8K0
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
  Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。   目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目,Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析过程中是很有意义的。不仅如此,Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。   大一统的软件栈,各个组件关系密切并且可以相互调用,这种设计有几个好处:   1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。   2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了,一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。   3、能够构建出无缝整合不同处理模型的应用。   Spark 的内置项目如下:
黑泽君
2019-05-07
9710
大数据技术之_19_Spark学习_02_Spark Core 应用解析小结
1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset 它就是一个 class。
黑泽君
2019-04-27
6710
大数据技术之_14_Oozie学习
  Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
黑泽君
2019-03-19
1.1K0
大数据技术之_05_Hadoop学习_04_MapReduce_Hadoop企业优化(重中之重)+HDFS小文件优化方法+MapReduce扩展案例+倒排索引案例(多job串联)+TopN案例+找博客
  MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。
黑泽君
2019-03-08
5720
大数据技术之_06_Zookeeper学习_Zookeeper入门+Zookeeper安装+Zookeeper内部原理+Zookeeper实战(开发重点)+企业面试真题
  Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。
黑泽君
2019-03-06
8650
大数据技术之_03_Hadoop学习_01_入门_大数据概论+从Hadoop框架讨论大数据生态+Hadoop运行环境搭建(开发重点)
HDFS(Hadoop Distributed File System)的架构概述,如图2-4所示。
黑泽君
2019-03-05
5390
大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+【本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)】+Hadoop编译源码(面试重点)+常见错误及解决方案
  Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。   Hadoop官方网站:http://hadoop.apache.org/
黑泽君
2019-03-04
1.6K0
大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和Seconda
传统硬盘HDD(Hard Disk Drive)传输速率:100MB/s 固态硬盘SSD(Solid State Drive)传输速率:500MB/s 混合硬盘HHD(Hybrid Harddrive)传输速率:300MB/s PCIe固态硬盘SSD(Solid State Drive)传输速率:1500MB/s
黑泽君
2019-03-04
1.3K0
大数据技术之_07_Hadoop学习_HDFS_HA(高可用)_HA概述+HDFS-HA工作机制+HDFS-HA集群配置+YARN-HA配置+HDFS Federation(联邦) 架构设计
1、修改ip 2、修改主机名及主机名和ip地址的映射 3、关闭防火墙 4、ssh免密登录 5、安装JDK,配置环境变量等
黑泽君
2019-02-25
1.7K0
Java or Python?初学者的选择
原文链接:https://zhuanlan.zhihu.com/p/34194269
黑泽君
2018-10-11
4870
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档