腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据

多年海量数据处理经验，化数据为力量

专栏作者

174

文章

274511

阅读量

108

订阅数

Spark Streaming入门

spark 大数据

本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展，支持连续的数据流处理。

大数据弄潮儿

2018-05-15

2.2K0

Spark是否可以完全取代Hadoop

hadoop spark 大数据

谈到大数据，相信大家对Hadoop和Apache Spark这两个名字并不陌生。然而，最近业界有一些人正在大张旗鼓的宣扬Hadoop将死，Spark将立。他们究竟是危言耸听、哗众取宠，还是眼光独到堪破

企鹅号小编

2018-02-02

1.8K0

Zzreal的大数据笔记-SparkDay01

spark 大数据系统架构

Spark 一、Spark概述 1、什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎。它集批处理、实时流处理、交互式查询和图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。 2、Spark的优点速度。与hadoop的MR相比,Spark的运算要快100倍以上;而基于硬盘的计算也要快10倍以上。易用。Spark支持java、python、scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Spark支持交互式的python和scala的she

企鹅号小编

2018-02-01

4920

如何设计企业级大数据分析平台？

大数据 spark 数据库 nosql

传统企业的OLAP几乎都是基于关系型数据库，在面临“大数据”分析瓶颈，甚至实时数据分析的挑战时，在架构上如何应对?本文试拟出几个大数据OLAP平台的设计要点，意在抛砖引玉。一、突破设计原则建设企业

企鹅号小编

2018-02-01

1.3K0

大数据开发如何规避细节问题，换一个角度来解决常见的细节问题

uml hadoop spark

5.开发细节 5.1工程结构讲解本书共一个系统架构，二个产品模块（离线和实现），四个项目包：Stormanalyse,Loggenerator, ClickStreamETL，SparkClickStream接下来分别来介绍对应的项目模块： 5.1.1离线项目代码目录结构离线大数据日志处理由两部分组成，第一部分是Hadoop MR组成的ClickStreamETL项目，第二个是有Spark内存计算组成的SparkClickStream项目。 📷 ClickStreamETL Hadoop版本的日志处理分

企鹅号小编

2018-01-29

7220

关注专栏作者，随时接收最新技术干货

大数据弄潮儿

腾讯产品运营

花落花飞去

腾讯社区运营

腾讯产品运营

2017年大数据年终盘点：开源工具、MySQL和Python是最大赢家！

hadoop spark apache

2001年，Gartner给出了大数据的概念，即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征，即海量、速度和多样性，也很明确的为我们指出了大数据在哪些方面存在挑战。但是，16年过去了，现在大数据发展仍然没有达到边界，还是一个充满想象力的领域。因为数据的存在，让很多新的行业焕发出了无限的价值，社交媒体网站可能就是一个典型的例子。对于企业来说，目前的主要问题就是如何使用收集来的数据创造价值。为此，Dzone社区调查

企鹅号小编

2018-01-25

5490

Zzreal的大数据笔记-SparkDay03

spark yarn node.js

Spark的运行模式 📷 Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持，目前的实现包括相对稳定的Mesos模式，以及hadoop YARN模式。本地模式：常用于本地开发测试，本地还分别 local 和 local cluster （1）standal

企鹅号小编

2018-01-25

5620

Zzreal的大数据笔记-SparkDay04

spark 云数据库 SQL Server 数据库大数据

Spark SQL SparkSQL的前身是Shark，它抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。 1、Spark SQL性能 Spark SQL比hive快10-100倍，原因：内存列存储( In- Memory Columnar Storage ) 📷 基于Row的J

企鹅号小编

2018-01-24

7390

大数据驱动的未来网络：体系架构与应用场景

大数据 spark cdn

来源：学术plus（caeit-e）摘要：当前网络已经发展了40余年，存在许多问题亟待解决。随着美国产业互联网、德国工业4.0以及“互联网+”等战略的提出，当前的互联网所支撑的方向正在由消费型向生产型转变，但是基于TCP/IP的网络体系架构在可扩展性、安全性等方面都无法适应这一转变，因此未来网络受到了全球范围的重视，比较有代表性的工作包括软件定义网络和信息中心网络，另一方面，大数据技术也在各个行业崭露头角，这些新兴的技术都处于发展初期，仍存在许多问题亟待解决。本文将这些新技术的优势加以利用，提出了一种数

企鹅号小编

2018-01-23

1.2K0

Zzreal的大数据笔记-SparkDay05

Spark Streaming SparkStreaming部分没做知识点的笔记，直接从代码上理解它的用法。后面整理Storm的时候会与SparkStreaming做一个对比，如果这时候难以理解SparkStreaming的话就先照着代码学会怎么用，后面结合Storm来理解实时计算体系。 flume+SparkStreaming.conf ---SparkStreaming集成flume的flume配置 #以下是push模式 a1.sources = r1 a1.sinks = k1 a1.channels

企鹅号小编

2018-01-22

4640

零基础小白成为大数据技术专家必知的学习历程

大数据 spark hadoop 数据库 hbase

每天都会有很多小白在社交平台上问我：“青牛没有基础可以学习大数据吗？能不能学的懂啊？我不懂java可以学大数据吗？”，针对这些基础性的问题，我写了这篇文章，希望能够帮助到所有想学大数据技术的人们。学习大数据首先我们要学习Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。 📷 Java 大家都知道Java的方向有JavaSE、JavaEE、JavaME，学习大数据要学习那个方向呢？只需要学习Java的标准版JavaSE就可以了，像Servlet、JSP、Tomcat、Strut

企鹅号小编

2018-01-17

8950

Hadoop和Spark的异同

spark hadoop 大数据

解决问题的层面不一样 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题，是一个分布式数据基础设施。 HDFS，它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，通过将块保存到多个副本上，提供高可靠的文件存储。 MapReduce，通过简单的Mapper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的机器上并发地分布式处理大量数据集，而把并发、分布式和故障恢复等细节隐藏。 Hadoop复杂的数据处理需要分解为多个Job（包含一

企鹅号小编

2018-01-16

8510

UC Berkeley提出新型分布式执行框架Ray：有望取代Spark

人工智能机器学习 spark 大数据 tensorflow

译者｜马卓奇编辑｜Natalie AI 前线导读：下一代人工智能应用程序需要不断地与环境交互，并从这些交互中学习。这对系统的性能和灵活性提出了新的要求，而现有的机器学习计算框架大多无法满足这些要求。为此，UC Berkeley AMP 实验室开发了一个高性能分布式执行框架 Ray，并于近日在 Arxiv 上发表了相关论文：《Ray: A Distributed Framework for Emerging AI Applications》。更多干货内容请关注微信公众号“AI 前线”，（ID：ai-f

企鹅号小编

2018-01-16

1.6K0

Flume日志采集应用架构升级与重构

转眼新的一年又来了，趁着这段时间总结下2017这一年的工作经验，避免重复踩坑。MOB数据采集平台升级也快经历了半年时间，目前重构后线上运行稳定，在这过程中挖过坑，填过坑，为后续业务的实时计算需求打下了很好的基础。一、升级与重构的原因 📷 旧有架构上图为旧有架构，主要服务于Hadoop2.x离线计算(T+1)以及Spark的实时计算（T+0），但在数据采集、数据流动、作业调度以及平台监控等几个环节存在的一些问题和不足。数据采集：数据采集平台与数据统计分析系统分离，不能统一管理数据流向，并且消耗服务资源

企鹅号小编

2018-01-10

1.4K1

如何避免大数据分析项目的失败

数据处理 spark

导语大数据和分析项目可以是颠覆性的，它会使你具有洞察力来超越竞争对手，创造新的收入来源，更好地为客户服务。大数据和分析项目也可能导致巨大的失败，导致浪费大量的资金和时间，更不用说会失去那些有才华的技术人才，他们对管理层犯得错误感到失望和厌烦。遵循以下六个最佳做法来超越竞争对手，创造新的收入来源，更好地为客户服务。大数据和分析项目可以是颠覆性的，它会使你具有洞察力来超越竞争对手，创造新的收入来源，更好地为客户服务。大数据和分析项目也可能导致巨大的失败，导致浪费大量的资金和时间，更不用说会失去那些有才华

企鹅号小编

2018-01-09

1K0

加速python科学计算的方法（二）

好久不见。有一年了。很久没有更推文了，我的错。额，进入正题吧。到了年底，很多App都会放出“你今年听了多少歌”、“你今年看了多少帖子”、“你今年剁手了多少次”等等的用户数据，并在其中进行较多的数据挖

企鹅号小编

2018-01-08

1.5K0

有向无环图检测

spark hadoop apache

本文介绍了有向无环图（DAG）的相关概念和应用，包括弹性分布式数据集（RDD）和DAG图理论。文章还通过一个例子说明了DAG图的应用，并介绍了如何检测有向图是否存在环路。最后，文章展望了DAG图在机器学习领域的应用前景。"，"label":"技术社区

企鹅号小编

2018-01-04

2.5K0

大数据生态圈到底是一个什么概念？和我们有关系吗？

spark 大数据数据库

企鹅号小编

2017-12-26

7110

大数据GIS技术之分布式计算全解析

本文介绍了如何在大数据GIS应用中利用SuperMap iObjects Java for Spark实现分布式空间大数据处理和分析，包括空间数据索引、空间数据复制、空间数据连接、空间数据聚合等。通过这些功能，用户可以方便地对空间大数据进行预处理、分析、可视化，从而为城市规划、公共安全、环境保护等领域提供有价值的决策支持。

企鹅号小编

2017-12-26

3.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态