腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
我是攻城师
专栏作者
举报
492
文章
949668
阅读量
119
订阅数
订阅专栏
申请加入专栏
全部文章
java
其他
编程算法
es 2
spark
存储
hadoop
大数据
lucene/solr
数据库
数据结构
apache
开源
api
sql
github
jdk
jvm
scala
hive
安全
缓存
搜索引擎
linux
分布式
hbase
oracle
数据分析
git
mapreduce
二叉树
node.js
maven
机器学习
json
人工智能
shell
python
spring
hashmap
容器镜像服务
容器
网络安全
https
javascript
云数据库 SQL Server
云数据库 Redis
ide
nginx
yarn
spring boot
数据处理
windows
系统架构
nat
xml
nosql
eclipse
opencv
c++
html
jar
游戏
jdbc
npm
php
ruby
go
servlet
react
mvc
打包
TDSQL MySQL 版
网站
http
压力测试
正则表达式
yum
numpy
zookeeper
gradle
微信
微服务
数据挖掘
swift
c 语言
perl
.net
bootstrap
angularjs
css
ajax
android
单片机
tomcat
unix
centos
深度学习
文件存储
日志服务
mongodb
图像处理
自动化
黑客
爬虫
html5
图像识别
grep
cdn
tcp/ip
flash
kernel
anaconda
机器人
数据可视化
物联网
安全漏洞
云计算
apple
com
google
microsoft
yahoo
磁盘
域名
搜索文章
搜索
搜索
关闭
如何使用Spark大规模并行构建索引
spark
hadoop
mapreduce
使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法
我是攻城师
2018-05-14
1.4K
0
Hadoop/Spark生态圈里的新气象
spark
mapreduce
yarn
令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。 对于Hadoop你需要了解的最重要的事情就是,它不再是原来的Hadoop。 这
我是攻城师
2018-05-14
1K
0
Apache Spark 不过时的六大理由
hadoop
mapreduce
spark
apache
大数据
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 1.对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。 2.YARN(负责资源分配和管理)是大数据环境下一个适用的架构。 3.或许是最为重要的一点,目前并不存在一个能解决所有问题的框架结构。尽管Map
我是攻城师
2018-05-11
644
0
Spark 和 Hadoop 是朋友不是敌人
hadoop
spark
mapreduce
yarn
sql
6月15日,IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。 Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop 的补充。这样的误解可以从类似“旨在比下 Hadoop 的新软件”和“企业将放弃大数据技术 Hadoop”的标题中看出来。 作为一个长期的大数据
我是攻城师
2018-05-11
550
0
Pig0.15集成Tez,让猪飞起来
开源
hive
mapreduce
spark
1,Tez是什么? Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题
我是攻城师
2018-05-11
804
0
相比Hadoop,如何看待Spark技术?
spark
hadoop
mapreduce
之前看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性。但是最近的风评已经变 化,尤其是14年10月他们完成了Peta sort的实验,这标
我是攻城师
2018-05-11
607
0
hadoop常见问题解答
hadoop
mapreduce
hbase
TDSQL MySQL 版
分布式
(1)Hadoop适不适用于电子政务?为什么? 电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助海量数据处理平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台。 总结一下,任何系统没有绝对的适合和不适合,只有当需求出现时才可以决定,在一个非常小的电子政务系统上如果没有打数据处
我是攻城师
2018-05-11
1.1K
0
驭象者之Apache Oozie
apache
java
mapreduce
(1)Apache Oozie是什么? Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。 Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,Hive, Sqoop , Distcp,也可以结合一些脚本如Shell,Python,Java来很灵活的完成
我是攻城师
2018-05-11
985
0
万法归宗之Hadoop编程无界限
hadoop
xml
mapreduce
java
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道 ,废话不多说,下面切入主题: 先介绍下需求: 散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作为字段和字段之间的分隔符,每解析一个txt文件时,都要获取文件名,然后与xml中的schema信息
我是攻城师
2018-05-11
773
0
5行代码怎么实现Hadoop的WordCount?
java
mapreduce
hadoop
spark
分布式
最近散仙比较忙,只能利用下班之后,写文章了,发的时间晚了点,还请大家见谅,点击右上角的文字:我是工程师,即可关注本公众号,不多说了,赶紧回家,再晚就没地铁了。 初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。 如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用wordcount,则意味着你踏入了分布式编程的
我是攻城师
2018-05-11
783
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档