首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
957783
阅读量
119
订阅数
Spark任务两个小问题笔记
今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。 两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据,然后把这些数据发送executor端进行后续处理。 问题一:序列化异常 driver有一个case class类需要封装一些数据发送到executor上,原来都是scala的类,直接发送到executor上执行没问题,而且也没加序列化的注解,原因是因为scala会自动给函数方法序列化,因为这个类出现在函数中,所以也没事,但今天在这个类里面又加了一个java的be
我是攻城师
2018-05-14
5540
Apache Kylin的入门安装
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 从官网的介绍来看Kylin是一个OLAP的数据查询引擎,其特点就是快。公司最近准备引入Kylin做数据分析,原来也听说过 但一直没有接触,现在正好可以验证下Kylin是否是传说中那么NB,今天我们先来看看如何安装部署Kylin。 由于Kylin本身只是一个Server,所以安装部署还是比较简
我是攻城师
2018-05-14
9740
如何在Scala中读取Hadoop集群上的gz压缩文件
存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。 本次就给出一个读取gz压缩文件的例子核心代码: 压缩和解压模块用的工具包是apache-commons下面的类: import org.apache.commons.io.IOUtils impor
我是攻城师
2018-05-14
2.7K0
最新版Solr6.2.1安装记录
下载最新版Solr6.2.1 wget http://ftp.kddilabs.jp/infosystems/apache/lucene/solr/6.2.1/solr-6.2.1.tgz 如果是windows,直接浏览器访问下载即可。 安装 1,解压上面下载完的tar包,到某个盘符下面 2,进入到solr-6.2.1根目录 3,添加下面两个bat脚本,方便在Windows上测试操作solr,在Liunx无须添加 start.bat //封装启动solr脚本bin/solr.cmd start -fpaus
我是攻城师
2018-05-14
8790
六个藉藉无名但迅速崛起的Apache大数据项目
如今全球各地的无数企业组织在处理数据集,这些数据集是如此地庞大而复杂,以至于传统的数据处理应用软件再也无法支持经过优化的数据分析和洞察力获取。这是新一批大数据应用软件旨在解决的问题,而Apache软件
我是攻城师
2018-05-14
1.3K0
Hadoop生态系统在壮大:十大炫酷大数据项目
在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。
我是攻城师
2018-05-14
1K0
Apache Phoenix安装使用
前提Hadoop+Hbase集群已经能够正常运转,如果不知道如何安装,请查看如下两篇文章: Hadoop安装 http://qindongliang.iteye.com/blog/2222145 Hbase安装 http://qindongliang.iteye.com/blog/2095733 框架版本: Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 Centos6.5 Apache Ant1.9.5
我是攻城师
2018-05-14
1.6K0
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的过程,一个历练的过程,我相信优秀的人,都是经历过无数磨难成就的,并且有着坚持不放弃的心态,迎接各种挑战,如果你总是遇到困难就放弃,那么你永远也不能成为最优秀的人,废话不多说了,下面开始进入正题: 框架版本如下: Centos6.5 Apache Hadoop2.7.1 Apac
我是攻城师
2018-05-14
9300
Hive集成Tez让大象飞起来
基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez,请参考上篇文章:http://qindongliang.iteye.com/blog/2271440 安装成功之后
我是攻城师
2018-05-14
1.2K0
Apache Tez0.7编译笔记
目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-src.tar.gz 由于编译Tez-UI模块,需要使用nodejs,所以建议还是 提前安装nodejs 和npm工具,安装方式,可以下载源码安装 也可以yum安装,安装步骤: (1)安装nodejs镜像 sudo curl --silent --location http
我是攻城师
2018-05-14
1K0
一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉 编辑
环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hbase的压缩,Hadoop安装了lzo和snappy,插入50条文本数据,每条数据大约4M,来看他们的压缩率对比, 然后在测的过程中,发现用java客户端去scan这50条数据时,regionserver频繁宕机看hbase的log发现并无明显异常,查看datano
我是攻城师
2018-05-14
7490
运用Spark加速实时数据分析
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。 在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在
我是攻城师
2018-05-14
6520
Apache Spark 不过时的六大理由
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 1.对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。 2.YARN(负责资源分配和管理)是大数据环境下一个适用的架构。 3.或许是最为重要的一点,目前并不存在一个能解决所有问题的框架结构。尽管Map
我是攻城师
2018-05-11
6470
Hadoop2.6.0-cdh5.4.1源码编译安装
版本使用范围,大致 与Apache Hadoop编译步骤一致大同小异,因为CDH的Hadoop的本来就是从社区版迁过来的,所以,这篇文章同样适合所有的以Apache Hadoop为原型的其他商业版本的hadoop编译,例如,Cloudera(CDH)的hadoop和Hortonworks(HDP)的的hadoop编译,下面开工: 1,环境准备(Cenots6.x,其他的大同小异) (1)yum安装 sudo yum install -y autoconf automake libtool git
我是攻城师
2018-05-11
2.3K0
CDH-Hadoop2.6+ Apache Pig0.15安装记录
1,使用CDH的hadoop里面有对应的组件Pig,但版本较低,所以放弃使用了,直接下载 Apache Pig0.15最新的版本(支持Tez,比Hive更容易集成) 下载地址:http://archive.apache.org/dist/pig/pig-0.15.0/pig-0.15.0.tar.gz 直接下载二进制包即可 2,配置Pig的环境变量如下: #Pig export PIG_HOME=/ROOT/server/pig export PIG_CLASSPATH=$HADOO
我是攻城师
2018-05-11
5830
Solr5.1.0如何安装部署?
solr是什么? 来自维基百科的解释: Solr5.x已经发布有一段时间了,相比Solr4.x来说,修复了不少了Bug,也新增了一些不错的特性比如在Admin页面就可以查看索引结构,S
我是攻城师
2018-05-11
8120
驭象者之Apache Oozie
(1)Apache Oozie是什么? Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。 Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,Hive, Sqoop , Distcp,也可以结合一些脚本如Shell,Python,Java来很灵活的完成
我是攻城师
2018-05-11
9910
Apache Pig和Solr问题笔记(一)
记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据? 注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 。 第二: 在Pig处理split,或则正则截取数据的时候。 先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是
我是攻城师
2018-05-11
1.3K0
Apache Pig如何通过自定义UDF查询数据库(五)
image.png GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标,例如淘宝,京东都有这样的衡量标准,感兴趣的朋友可以自己科普下这方面的概念知识。 当然散仙今天,并不是来解释概念的,而是记录下最近工作的一些东西,原来我们平台的GMV只有一个总的成交金额,并没有细分到各个系统的GMV的比重,比如搜索端,推荐端,移动端等等。 通过细粒度的分析各个系统所占的比重,对于指导各个系统完善和发展有一定的重要意义,这里不就深说了,下面先来看下散仙分析的搜索gmv的数据布局方式。
我是攻城师
2018-05-11
1.1K0
Apache Pig学习笔记(二)
主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章了,祝大家春节快乐! 1,pig里所有的保留关键字: -- A assert, and, any, all, arrange, as, asc, AVG -- B bag, BinStorage, by, bytearray, BIGINTEGER, BIGDECIMAL -- C cache, CAS
我是攻城师
2018-05-11
1.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档