我是攻城师-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我是攻城师

专栏成员

492

文章

1001005

阅读量

119

订阅数

Apache Kylin的入门安装

apache 开源分布式 hadoop sql

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。从官网的介绍来看Kylin是一个OLAP的数据查询引擎，其特点就是快。公司最近准备引入Kylin做数据分析，原来也听说过但一直没有接触，现在正好可以验证下Kylin是否是传说中那么NB，今天我们先来看看如何安装部署Kylin。由于Kylin本身只是一个Server，所以安装部署还是比较简

我是攻城师

2018-05-14

1K0

如何使用Spark的local模式远程读取Hadoop集群数据

我们在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据，这样的目的是方便快速调试，而不用每写一行代码或者一个方法，一个类文件都需要打包成jar上传到linux上，再扔到正式的集群上进行测试，像功能性验证直接使用local模式来快速调测是非常方便的，当然功能测试之后，我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题，这个在local模式是没法测的，还有集群运行的调优参数，这些都可以在正式仍到集群时验证。一个样例代码如下：如何在spark中

我是攻城师

2018-05-14

2.9K0

ES-Hadoop插件介绍

hadoop spark 大数据

上篇文章了，写了使用spark集成es框架，并向es写入数据，虽然能够成功，但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅，今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表，里面有非常多的组件来处理不同类型或者场景下的数据，Hadoop的基础组件是YARN,HDFS,MapReduce，我们都知道HDFS是可靠的分布式存储系统，大多数我们都是用MapReduce来分析数据，唯一的不足之处在于速度，为了解决这种问题所以才有了Hbase，Spark

我是攻城师

2018-05-14

1.7K0

如何使用neo4j存储树形无限级菜单

存储数据库 hadoop

对于树形菜单，想必大家都不陌生，这种业务数据，由于量小，关系复杂，所以在关系型数据库中，存储的格式一般都如下所是： id,name,pid 01,bigdata,00 002,hadoop,01 003,spark,01 02,search,01 03,lucene,02 04,es,02 有没有人感到困惑，为啥不使用，主外键表，存储这种数据，而非得只使用一张表来存储呢？结果导致查询非常受限，通常只能递归出所有节点，然后对比找到指定数据。如果使用主外键表存储，通常关系越复杂需要的外键表越多

我是攻城师

2018-05-14

2.7K0

Neo4j的查询语法笔记(二)

hadoop sql json

cypher是neo4j官网提供的声明式查询语言，非常强大，用它可以完成任意的图谱里面的查询过滤，我们知识图谱的一期项目基本开发完毕，后面会陆续总结学习一下neo4j相关的知识。今天接着上篇文章来看下neo4j的cpyher查询的一些基本概念和语法。一，Node语法在cypher里面通过用一对小括号()表示一个节点，它在cypher里面查询形式如下： 1，() 代表匹配任意一个节点 2, (node1) 代表匹配任意一个节点，并给它起了一个别名 3, (:Lable) 代表查询一个类型的数据 4, (

我是攻城师

2018-05-14

4.8K0

如何监控你的Hadoop+Hbase集群？

前言监控hadoop的框架有不少，如CDH的CM组件和Ambari都可以监控他们自己的hadoop，但是它不能监控apache的hadoop，如果你是使用原生的Apache Hadoop，那么也没关系，原生的Hadoop天生就提供了非常详细的对接Ganglia的jmx接口，里面包含了各个核心组件metrics获取功能，这一点你可以查看hadoop和hbase包括spark的conf下面的metrics文件里面配置，就能得到验证。（一）Ganglia是什么？　Ganglia 是 UC Berk

我是攻城师

2018-05-14

1.4K0

Hadoop+Hbase集群数据迁移问题

hbase TDSQL MySQL 版单片机 java hadoop

数据迁移或备份是任何一个公司都有可能到遇到的一件事，有关hbase数据迁移，官网也给出了几种方案，这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服

我是攻城师

2018-05-14

1.6K0

Kakfa集群搭建

开源分布式 hadoop

先来整体熟悉下Kafka的一些概念和架构（一）什么是Kafka？ Kafka是由LinkedIn开发并开源的一个分布式消息系统，因其分布式和高吞吐率被广泛应用，现在已经在Hadoop和Spark等大数据的生态系统中成为一个必不可少的生态组件，可与各种计算模型，如离线计算，实时计算，流计算对接数据。（二）为什么要用Kafka？ 1，以时间复杂度O（1）的方式提供消息持久化和访问能力，即使应对TB级数据也能保证常数时间内的的访问和存储。 2，高吞吐率，在普通PC上也能保证每秒10万左右的消

我是攻城师

2018-05-14

8220

Hadoop生态系统在壮大：十大炫酷大数据项目

apache hadoop 大数据 spark 开源

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间，这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目，并顺便了解几个新兴项目。

我是攻城师

2018-05-14

1.1K0

如何使用Spark大规模并行构建索引

spark hadoop mapreduce

使用Spark构建索引非常简单，因为spark提供了更高级的抽象rdd分布式弹性数据集，相比以前的使用Hadoop的MapReduce来构建大规模索引，Spark具有更灵活的api操作，性能更高，语法

我是攻城师

2018-05-14

1.5K0

SolrCloud5.4.1集群实战（一）

lucene/solr 分布式 hadoop jdk

古时候，人们用一头牛拉不动一个耕地的犁时，不会去找个比这头牛更大的牛，而是会直接使用两个牛一起参与耕地。在分布式计算中，道理同样如此，Hadoop就是一个典型的例子。诸如此类的有很多，这就是典型水平切分架构。早期的solr仅仅支持主从架构模式，这种架构可以提高集群的吞吐量和可靠性，当面临越来越多的数据时，并不能提升检索性能，所以在solr4.x之后，开始支持cloud模式的集群，可以将一份超大索引水平切分到多台机器上，从而提升系统的检索性能，当然也兼具了主从模式的优点，支持容错，副本，扩容等。基础环境

我是攻城师

2018-05-14

8490

Hadoop之父Doug Cutting眼中大数据技术的未来

hadoop 大数据 java

上次见到(膜拜)Hadoop之父Doug Cutting是在2年前，2014中国大数据技术大会上。今年Hadoop10岁，刚看到他的Hadoop十周年贺词，感觉时间飞逝。 Doug Cutting成长

我是攻城师

2018-05-14

6450

Hive集成Tez让大象飞起来

hive apache hadoop hbase

基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez，请参考上篇文章：http://qindongliang.iteye.com/blog/2271440 安装成功之后

我是攻城师

2018-05-14

1.2K0

Hadoop2.7.1和Hbase0.98添加LZO压缩

1，执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2，下载lzo的源码包并解压 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz tar -zxvf lzo-2.09.tar.gz 3，在当前目录新建一个lzo目录，存储编译后的lzo文件进入lzo-2.09目录依次执行命令： expor

我是攻城师

2018-05-14

1.4K0

设置Hadoop+Hbase集群pid文件存储位置

有时候，我们对运行几天或者几个月的hadoop或者hbase集群做停止操作，会发现，停止命令不管用了，为什么呢？因为基于java开发的程序，想要停止程序，必须通过进程pid来确定，而hadoop和hbase默认的情况下，会把pid文件存储在Linux上的/tmp目录的某个目录下，进程名命令规则一般是框架名-用户名-角色名.pid，而默认情况下，linux的tmp里面的东西，一天会删除一次，所以把pid文件放在这里面，并不是长久之计，为了安全起见，我们还是放到一个固定的目录下最好，当然不能放在/tmp

我是攻城师

2018-05-14

1.7K0

大数据相关开源系统简介汇总

大数据 hadoop

本片博客介绍大数据相关的开源系统以及他们对应的一句话简介, 对于各位想大概了解大数据都有哪些开源系统的同学有帮助。各种相关开源系统简介：如下是Apache基金支持的开源软件 hdfs 跟GFS类

我是攻城师

2018-05-14

7060

Hadoop+Maven项目打包异常

hadoop maven lucene/solr

先简单说下业务：有一个单独的模块，可以在远程下载Hadoop上的索引，然后合并压缩，最后推送到solr服务器上原来使用的是Ant打包，外部的jar是在执行主体的jar时cp进环境变量的，所以没有出现今天要说的这个问题，操作先把所有外部的jar的路径，拼接好一个字符串path，然后将path传入下面执行的代码 java -cp path com.xxx.xxx.Test 现在要统一项目风格，要把Ant项目转换为Maven项目，大体上没啥问题，由于不写MapReduce，仅仅使用HDFS

我是攻城师

2018-05-11

9590

Apache Spark 不过时的六大理由

hadoop mapreduce spark apache 大数据

在极短的时间内，Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信，spark仅仅是崭露头角。在过去的几年时间，随着Hadoop技术爆炸和大数据逐渐占据主流地位，几件事情逐渐明晰： 1.对所有数据而言，Hadoop分布式文件系统（HDFS）是一个直接存储平台。 2.YARN(负责资源分配和管理)是大数据环境下一个适用的架构。 3.或许是最为重要的一点，目前并不存在一个能解决所有问题的框架结构。尽管Map

我是攻城师

2018-05-11

6620

Spark 和 Hadoop 是朋友不是敌人

hadoop spark mapreduce yarn sql

6月15日，IBM 宣布计划大规模投资 Spark 相关技术，此项声明会促使越来越多的工程师学习 Spark 技术，并且大量的企业也会采用 Spark 技术。 Spark 投资的良性循环会使 Spark 技术发展更加成熟，并且可以从整个大数据环境中获益。然而，Spark 的快速增长给人们一个奇怪且固执的误解：Spark 将取代 Hadoop，而不是作为 Hadoop 的补充。这样的误解可以从类似“旨在比下 Hadoop 的新软件”和“企业将放弃大数据技术 Hadoop”的标题中看出来。作为一个长期的大数据

我是攻城师

2018-05-11

5660

Hadoop2.6.0-cdh5.4.1源码编译安装

hadoop apache yum git

版本使用范围，大致与Apache Hadoop编译步骤一致大同小异，因为CDH的Hadoop的本来就是从社区版迁过来的，所以，这篇文章同样适合所有的以Apache Hadoop为原型的其他商业版本的hadoop编译，例如，Cloudera（CDH）的hadoop和Hortonworks（HDP）的的hadoop编译，下面开工： 1，环境准备（Cenots6.x，其他的大同小异）（1）yum安装 sudo yum install -y autoconf automake libtool git

我是攻城师

2018-05-11

2.4K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态