黑泽君的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

黑泽君的专栏

专栏成员

708

文章

1752886

阅读量

103

订阅数

【Hadoop & Ecilpse】

hadoop 面向对象编程 https 网络安全大数据

　　使用本机 Ecilpse (Windows环境) 去访问远程 hadoop 集群出现以下异常：

2019-05-12

9230

【转载】Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)

hadoop mapreduce 大数据数据分析

Mike Olson(迈克尔·奥尔森) 是 Hadoop 运动背后的主要推动者，但这还远远不够，目前 Google 内部使用的大数据软件 Dremel 使大数据处理起来更加智能。

2019-05-08

1.8K0

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

spark hadoop shell bash bash 指令

Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化项目，2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目，Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。大一统的软件栈，各个组件关系密切并且可以相互调用，这种设计有几个好处： 1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。 2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。 3、能够构建出无缝整合不同处理模型的应用。 Spark 的内置项目如下：

2019-05-07

9710

大数据技术之_19_Spark学习_02_Spark Core 应用解析小结

spark hadoop 编程算法数据库数据结构

1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset 它就是一个 class。

2019-04-27

6710

大数据技术之_14_Oozie学习

xml ios 专用宿主机 hadoop 数据库

Oozie 英文翻译为：驯象人。一个基于工作流引擎的开源框架，由 Cloudera 公司贡献给 Apache，提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。

2019-03-19

1.1K0

大数据技术之_05_Hadoop学习_04_MapReduce_Hadoop企业优化(重中之重)+HDFS小文件优化方法+MapReduce扩展案例+倒排索引案例(多job串联)+TopN案例+找博客

大数据 mapreduce windows hadoop java

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

2019-03-08

5720

大数据技术之_06_Zookeeper学习_Zookeeper入门+Zookeeper安装+Zookeeper内部原理+Zookeeper实战（开发重点）+企业面试真题

node.js hadoop zookeeper 编程算法

Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。

2019-03-06

8650

大数据技术之_03_Hadoop学习_01_入门_大数据概论+从Hadoop框架讨论大数据生态+Hadoop运行环境搭建（开发重点）

hadoop 单元测试

HDFS（Hadoop Distributed File System）的架构概述，如图2-4所示。

2019-03-05

5390

大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+【本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)】+Hadoop编译源码(面试重点)+常见错误及解决方案

大数据 yarn node.js xml hadoop

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。 Hadoop官方网站：http://hadoop.apache.org/

2019-03-04

1.6K0

大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和Seconda

node.js 大数据 hadoop 编程算法

传统硬盘HDD（Hard Disk Drive）传输速率：100MB/s 固态硬盘SSD（Solid State Drive）传输速率：500MB/s 混合硬盘HHD（Hybrid Harddrive）传输速率：300MB/s PCIe固态硬盘SSD（Solid State Drive）传输速率：1500MB/s

2019-03-04

1.3K0

大数据技术之_07_Hadoop学习_HDFS_HA(高可用)_HA概述+HDFS-HA工作机制+HDFS-HA集群配置+YARN-HA配置+HDFS Federation(联邦) 架构设计

1、修改ip 2、修改主机名及主机名和ip地址的映射 3、关闭防火墙 4、ssh免密登录 5、安装JDK，配置环境变量等

2019-02-25

1.7K0

Java or Python？初学者的选择

java python android 大数据 hadoop

原文链接：https://zhuanlan.zhihu.com/p/34194269

2018-10-11

4870

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态