首页
学习
活动
专区
工具
TVP
发布

大数据

多年海量数据处理经验,化数据为力量
专栏作者
174
文章
274443
阅读量
108
订阅数
在Ubuntu上启动并运行Hadoop
Hadoop是一个用Java编写的框架,它允许在大型商品硬件集群上以分布式方式处理大型数据集。
大数据弄潮儿
2018-05-29
4.4K0
带有Apache Spark的Lambda架构
市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark(Core,SQL,Streaming),Apache Parquet,Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的演示!
大数据弄潮儿
2018-05-29
1.9K0
Hadoop/R 集成 I:流处理
原文地址:https://dzone.com/articles/hadoopr-integration-i
大数据弄潮儿
2018-05-28
6670
使用Hadoop分析大数据
大数据由于其庞大的规模而显得笨拙,并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储,分析和处理数据的开源软件框架和平台。本文是Hadoop如何帮助分析大数据的初学者指南。
大数据弄潮儿
2018-05-24
7340
后 Hadoop 时代的大数据技术思考:数据即服务
1. Hadoop 的神话正在破灭 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced the retirement of the basic plan for its data analytics software platform, BigInsights for Hadoop. The basic plan of the service will be retired in a month, o
企鹅号小编
2018-02-28
9710
关注专栏作者,随时接收最新技术干货
Techeek
腾讯产品运营
花落花飞去
腾讯社区运营
QiqiHe
腾讯产品运营
大数据干货系列(三)-Hadoop2.0总结
本文共计810字,预计阅读时长五分钟 Hadoop2.0总结 一、本质 Hadoop2.0,相比于Hadoop1.0,最明显的区别是YARN系统和HDFS2.0的新特性 📷 二、Yarn解决了什么问题 1.降低运维成本和数据共享成本 2.减小了JobTracker(也就是现在的RM)的负担 3.使得多种计算框架可以运行在一个集群中 4.资源表示成内存量,解决了之前的map slot/reduce slot分开造成集群资源闲置的情况 三、HDFS2.0解决了什么问题 1.NameNode HA解决了Hadoo
企鹅号小编
2018-02-05
5650
如何给Hadoop集群划分角色
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量,真实要部署的哪些服务,硬件资源,配置,以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时,CM会根据主机的可用资源,自动的分配角色到各台主机,边
企鹅号小编
2018-02-02
3.3K0
Spark是否可以完全取代Hadoop
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。然而,最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,Spark将立。他们究竟是危言耸听、哗众取宠,还是眼光独到堪破
企鹅号小编
2018-02-02
1.8K0
No.67 Hadoop 实践案例——记录去重
转载声明 本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:转自:灯塔大数据;微信:DTbigdata 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了“Hello World”程序的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—
企鹅号小编
2018-02-01
8760
大数据开发如何规避细节问题,换一个角度来解决常见的细节问题
5.开发细节 5.1工程结构讲解 本书共一个系统架构,二个产品模块(离线和实现),四个项目包:Stormanalyse,Loggenerator, ClickStreamETL,SparkClickStream接下来分别来介绍对应的项目模块: 5.1.1离线项目代码目录结构 离线大数据日志处理由两部分组成,第一部分是Hadoop MR组成的ClickStreamETL项目,第二个是有Spark内存计算组成的SparkClickStream项目。 📷 ClickStreamETL Hadoop版本的日志处理分
企鹅号小编
2018-01-29
7210
物联网中的大数据架构、应用案例以及带来的好处
作者:周硕彦 第一节 简介 近年来“物联网”(IoT)和“大数据”是两个最受瞩目的话题。在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结。这包括了手机、咖啡机、洗衣机、耳机、台灯以及可穿戴的设备,很多物品都是属于这个范畴(图 11.1)。这也适用于机器零件,例如:飞机的喷气发动机或石油钻井平台的钻头。无论有没有意识到这一点,我们的生活周围已经被这些依赖于大数据的东西所包围了,不过这也使得生活更美好。 图 11.1 物联网在连接设备的应用 (来源: the IPSO
企鹅号小编
2018-01-25
1.5K0
2017年大数据年终盘点:开源工具、MySQL和Python是最大赢家!
2001年,Gartner给出了大数据的概念,即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征,即海量、速度和多样性,也很明确的为我们指出了大数据在哪些方面存在挑战。但是,16年过去了,现在大数据发展仍然没有达到边界,还是一个充满想象力的领域。 因为数据的存在,让很多新的行业焕发出了无限的价值,社交媒体网站可能就是一个典型的例子。对于企业来说,目前的主要问题就是如何使用收集来的数据创造价值。为此,Dzone社区调查
企鹅号小编
2018-01-25
5490
大数据安全问题分析及对策建议
图片来自网络 作者简介:王竹欣,硕士,毕业于北京航空航天大学电子信息工程学院,现任职于中国信息通信研究院信息通信安全研究所,主要研究方向为网络安全、数据安全。陈湉,毕业于北京邮电大学计算机学院,硕士,现任中国信通院安全研究所数据安全研究部副主任,主要研究方向为大数据安全、个人信息保护。 随着大数据时代的到来,大数据技术为经济社会发展带来创新活力的同时,也使传统网络安全防护面临严重威胁与全新挑战。本文介绍了大数据技术及产业发展的有关背景,从数据安全、个人信息保护及大数据平台自身安全三个方面梳理大数据技术应
企鹅号小编
2018-01-23
1.9K0
浅析大数据HIVE和HBASE有何区别
Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询,因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/Value系统,它运行在HDFS之上。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务。Hive被分区为表格,表格又
企鹅号小编
2018-01-22
9560
零基础小白成为大数据技术专家必知的学习历程
每天都会有很多小白在社交平台上问我:“青牛没有基础可以学习大数据吗?能不能学的懂啊?我不懂java可以学大数据吗?”,针对这些基础性的问题,我写了这篇文章,希望能够帮助到所有想学大数据技术的人们。 学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 📷 Java 大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Strut
企鹅号小编
2018-01-17
8950
Hadoop和Spark的异同
解决问题的层面不一样 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 HDFS,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,通过将块保存到多个副本上,提供高可靠的文件存储。 MapReduce,通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的机器上并发地分布式处理大量数据集,而把并发、分布式和故障恢复等细节隐藏。 Hadoop复杂的数据处理需要分解为多个Job(包含一
企鹅号小编
2018-01-16
8510
大数据关键技术分析
本文介绍了大数据关键技术分析,包括Hadoop、HBase、MapReduce、Pig、Hive等框架及其应用。Hadoop具有高可靠性、高扩展性、高效性、高容错性和低成本等优点。通过使用这些技术,企业可以高效地进行数据存储和处理,提升数据分析的效率,降低成本。
企鹅号小编
2018-01-08
6060
有向无环图检测
本文介绍了有向无环图(DAG)的相关概念和应用,包括弹性分布式数据集(RDD)和DAG图理论。文章还通过一个例子说明了DAG图的应用,并介绍了如何检测有向图是否存在环路。最后,文章展望了DAG图在机器学习领域的应用前景。","label":"技术社区
企鹅号小编
2018-01-04
2.5K0
什么是Kafka
该文介绍了Kafka的基本概念、应用场景、优缺点、实现原理、主要概念、相关概念和主要功能。Kafka是一个分布式流媒体平台,用于发布和订阅记录流。它具有高吞吐量、可扩展性、持久性、容错性、实时性等特点。Kafka在大数据领域非常流行,用于实时数据处理、日志收集、流处理、事件驱动应用等。
大数据弄潮儿
2017-12-20
3.8K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档