首页
学习
活动
专区
工具
TVP
发布

大数据

多年海量数据处理经验,化数据为力量
专栏作者
174
文章
274511
阅读量
108
订阅数
Spark Streaming入门
本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展,支持连续的数据流处理。
大数据弄潮儿
2018-05-15
2.2K0
Spark是否可以完全取代Hadoop
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。然而,最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,Spark将立。他们究竟是危言耸听、哗众取宠,还是眼光独到堪破
企鹅号小编
2018-02-02
1.8K0
Zzreal的大数据笔记-SparkDay01
Spark 一、Spark概述 1、什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎。它集批处理、实时流处理、交互式查询和图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。 2、Spark的优点 速度。与hadoop的MR相比,Spark的运算要快100倍以上;而基于硬盘的计算也要快10倍以上。 易用。Spark支持java、python、scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Spark支持交互式的python和scala的she
企鹅号小编
2018-02-01
4920
如何设计企业级大数据分析平台?
传统企业的OLAP几乎都是基于关系型数据库,在面临“大数据”分析瓶颈,甚至实时数据分析的挑战时,在架构上如何应对?本文试拟出几个大数据OLAP平台的设计要点,意在抛砖引玉。 一、突破设计原则 建设企业
企鹅号小编
2018-02-01
1.3K0
大数据开发如何规避细节问题,换一个角度来解决常见的细节问题
5.开发细节 5.1工程结构讲解 本书共一个系统架构,二个产品模块(离线和实现),四个项目包:Stormanalyse,Loggenerator, ClickStreamETL,SparkClickStream接下来分别来介绍对应的项目模块: 5.1.1离线项目代码目录结构 离线大数据日志处理由两部分组成,第一部分是Hadoop MR组成的ClickStreamETL项目,第二个是有Spark内存计算组成的SparkClickStream项目。 📷 ClickStreamETL Hadoop版本的日志处理分
企鹅号小编
2018-01-29
7220
关注专栏作者,随时接收最新技术干货
Techeek
腾讯产品运营
花落花飞去
腾讯社区运营
QiqiHe
腾讯产品运营
2017年大数据年终盘点:开源工具、MySQL和Python是最大赢家!
2001年,Gartner给出了大数据的概念,即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征,即海量、速度和多样性,也很明确的为我们指出了大数据在哪些方面存在挑战。但是,16年过去了,现在大数据发展仍然没有达到边界,还是一个充满想象力的领域。 因为数据的存在,让很多新的行业焕发出了无限的价值,社交媒体网站可能就是一个典型的例子。对于企业来说,目前的主要问题就是如何使用收集来的数据创造价值。为此,Dzone社区调查
企鹅号小编
2018-01-25
5490
Zzreal的大数据笔记-SparkDay03
Spark的运行模式 📷 Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持,目前的实现包括相对稳定的Mesos模式,以及hadoop YARN模式。 本地模式:常用于本地开发测试,本地还分别 local 和 local cluster (1)standal
企鹅号小编
2018-01-25
5620
Zzreal的大数据笔记-SparkDay04
Spark SQL SparkSQL的前身是Shark,它抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。 1、Spark SQL性能 Spark SQL比hive快10-100倍,原因: 内存列存储( In- Memory Columnar Storage ) 📷 基于Row的J
企鹅号小编
2018-01-24
7390
大数据驱动的未来网络:体系架构与应用场景
来源:学术plus(caeit-e) 摘 要:当前网络已经发展了40余年,存在许多问题亟待解决。随着美国产业互联网、德国工业4.0以及“互联网+”等战略的提出,当前的互联网所支撑的方向正在由消费型向生产型转变,但是基于TCP/IP的网络体系架构在可扩展性、安全性等方面都无法适应这一转变,因此未来网络受到了全球范围的重视,比较有代表性的工作包括软件定义网络和信息中心网络,另一方面,大数据技术也在各个行业崭露头角,这些新兴的技术都处于发展初期,仍存在许多问题亟待解决。本文将这些新技术的优势加以利用,提出了一种数
企鹅号小编
2018-01-23
1.2K0
Zzreal的大数据笔记-SparkDay05
Spark Streaming SparkStreaming部分没做知识点的笔记,直接从代码上理解它的用法。后面整理Storm的时候会与SparkStreaming做一个对比,如果这时候难以理解SparkStreaming的话就先照着代码学会怎么用,后面结合Storm来理解实时计算体系。 flume+SparkStreaming.conf ---SparkStreaming集成flume的flume配置 #以下是push模式 a1.sources = r1 a1.sinks = k1 a1.channels
企鹅号小编
2018-01-22
4640
零基础小白成为大数据技术专家必知的学习历程
每天都会有很多小白在社交平台上问我:“青牛没有基础可以学习大数据吗?能不能学的懂啊?我不懂java可以学大数据吗?”,针对这些基础性的问题,我写了这篇文章,希望能够帮助到所有想学大数据技术的人们。 学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 📷 Java 大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Strut
企鹅号小编
2018-01-17
8950
Hadoop和Spark的异同
解决问题的层面不一样 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 HDFS,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,通过将块保存到多个副本上,提供高可靠的文件存储。 MapReduce,通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的机器上并发地分布式处理大量数据集,而把并发、分布式和故障恢复等细节隐藏。 Hadoop复杂的数据处理需要分解为多个Job(包含一
企鹅号小编
2018-01-16
8510
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
译者|马卓奇 编辑|Natalie AI 前线导读:下一代人工智能应用程序需要不断地与环境交互,并从这些交互中学习。这对系统的性能和灵活性提出了新的要求,而现有的机器学习计算框架大多无法满足这些要求。为此,UC Berkeley AMP 实验室开发了一个高性能分布式执行框架 Ray,并于近日在 Arxiv 上发表了相关论文:《Ray: A Distributed Framework for Emerging AI Applications》。 更多干货内容请关注微信公众号“AI 前线”,(ID:ai-f
企鹅号小编
2018-01-16
1.6K0
Flume日志采集应用架构升级与重构
转眼新的一年又来了,趁着这段时间总结下2017这一年的工作经验,避免重复踩坑。MOB数据采集平台升级也快经历了半年时间,目前重构后线上运行稳定,在这过程中挖过坑,填过坑,为后续业务的实时计算需求打下了很好的基础。 一、升级与重构的原因 📷 旧有架构 上图为旧有架构,主要服务于Hadoop2.x离线计算(T+1)以及Spark的实时计算(T+0),但在数据采集、数据流动、作业调度以及平台监控等几个环节存在的一些问题和不足。 数据采集: 数据采集平台与数据统计分析系统分离,不能统一管理数据流向,并且消耗服务资源
企鹅号小编
2018-01-10
1.4K1
如何避免大数据分析项目的失败
导语 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。 遵循以下六个最佳做法来超越竞争对手,创造新的收入来源,更好地为客户服务。 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。 大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华
企鹅号小编
2018-01-09
1K0
加速python科学计算的方法(二)
好久不见。有一年了。 很久没有更推文了,我的错。额,进入正题吧。到了年底,很多App都会放出“你今年听了多少歌”、“你今年看了多少帖子”、“你今年剁手了多少次”等等的用户数据,并在其中进行较多的数据挖
企鹅号小编
2018-01-08
1.5K0
有向无环图检测
本文介绍了有向无环图(DAG)的相关概念和应用,包括弹性分布式数据集(RDD)和DAG图理论。文章还通过一个例子说明了DAG图的应用,并介绍了如何检测有向图是否存在环路。最后,文章展望了DAG图在机器学习领域的应用前景。","label":"技术社区
企鹅号小编
2018-01-04
2.5K0
大数据生态圈到底是一个什么概念?和我们有关系吗?
企鹅号小编
2017-12-26
7110
大数据GIS技术之分布式计算全解析
本文介绍了如何在大数据GIS应用中利用SuperMap iObjects Java for Spark实现分布式空间大数据处理和分析,包括空间数据索引、空间数据复制、空间数据连接、空间数据聚合等。通过这些功能,用户可以方便地对空间大数据进行预处理、分析、可视化,从而为城市规划、公共安全、环境保护等领域提供有价值的决策支持。
企鹅号小编
2017-12-26
3.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档