首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
949668
阅读量
119
订阅数
如何使用Spark大规模并行构建索引
使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法
我是攻城师
2018-05-14
1.4K0
Hadoop/Spark生态圈里的新气象
令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。 对于Hadoop你需要了解的最重要的事情就是,它不再是原来的Hadoop。 这
我是攻城师
2018-05-14
1K0
Apache Spark 不过时的六大理由
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 1.对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。 2.YARN(负责资源分配和管理)是大数据环境下一个适用的架构。 3.或许是最为重要的一点,目前并不存在一个能解决所有问题的框架结构。尽管Map
我是攻城师
2018-05-11
6440
Spark 和 Hadoop 是朋友不是敌人
6月15日,IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。 Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop 的补充。这样的误解可以从类似“旨在比下 Hadoop 的新软件”和“企业将放弃大数据技术 Hadoop”的标题中看出来。 作为一个长期的大数据
我是攻城师
2018-05-11
5500
Pig0.15集成Tez,让猪飞起来
1,Tez是什么? Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题
我是攻城师
2018-05-11
8040
相比Hadoop,如何看待Spark技术?
之前看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性。但是最近的风评已经变 化,尤其是14年10月他们完成了Peta sort的实验,这标
我是攻城师
2018-05-11
6070
hadoop常见问题解答
(1)Hadoop适不适用于电子政务?为什么? 电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助海量数据处理平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台。 总结一下,任何系统没有绝对的适合和不适合,只有当需求出现时才可以决定,在一个非常小的电子政务系统上如果没有打数据处
我是攻城师
2018-05-11
1.1K0
驭象者之Apache Oozie
(1)Apache Oozie是什么? Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。 Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,Hive, Sqoop , Distcp,也可以结合一些脚本如Shell,Python,Java来很灵活的完成
我是攻城师
2018-05-11
9850
万法归宗之Hadoop编程无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道 ,废话不多说,下面切入主题: 先介绍下需求: 散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作为字段和字段之间的分隔符,每解析一个txt文件时,都要获取文件名,然后与xml中的schema信息
我是攻城师
2018-05-11
7730
5行代码怎么实现Hadoop的WordCount?
最近散仙比较忙,只能利用下班之后,写文章了,发的时间晚了点,还请大家见谅,点击右上角的文字:我是工程师,即可关注本公众号,不多说了,赶紧回家,再晚就没地铁了。 初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。 如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用wordcount,则意味着你踏入了分布式编程的
我是攻城师
2018-05-11
7830
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档