腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据
多年海量数据处理经验,化数据为力量
专栏作者
举报
174
文章
274511
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章(174)
大数据(94)
spark(19)
hadoop(19)
爬虫(15)
python(13)
数据库(12)
人工智能(12)
数据处理(12)
其他(9)
apache(8)
机器学习(7)
sql(7)
数据挖掘(5)
scrapy(5)
安全(5)
深度学习(4)
编程算法(4)
存储(4)
区块链(3)
神经网络(3)
数据分析(3)
数据可视化(3)
系统架构(3)
hbase(3)
NLP 服务(2)
ios(2)
java(2)
r 语言(2)
云数据库 SQL Server(2)
oracle(2)
github(2)
api(2)
linux(2)
spring(2)
mapreduce(2)
分布式(2)
安全漏洞(2)
数据结构(2)
虚拟化(2)
比特币(1)
数字货币(1)
tensorflow(1)
javascript(1)
go(1)
.net(1)
scala(1)
vue.js(1)
node.js(1)
xml(1)
html(1)
android(1)
nosql(1)
搜索引擎(1)
中文分词(1)
ubuntu(1)
腾讯云测试服务(1)
企业(1)
渲染(1)
svg(1)
yarn(1)
云+未来(1)
开源(1)
自动化(1)
运维(1)
黑客(1)
网络安全(1)
hive(1)
dns(1)
pytorch(1)
cdn(1)
kernel(1)
uml(1)
anaconda(1)
微信(1)
物联网(1)
https(1)
fpga(1)
企业组织(1)
云计算(1)
kafka(1)
max(1)
mean(1)
min(1)
pm2(1)
搜索文章
搜索
搜索
关闭
Spark Streaming入门
spark
大数据
本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展,支持连续的数据流处理。
大数据弄潮儿
2018-05-15
2.2K
0
Spark是否可以完全取代Hadoop
hadoop
spark
大数据
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。然而,最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,Spark将立。他们究竟是危言耸听、哗众取宠,还是眼光独到堪破
企鹅号小编
2018-02-02
1.8K
0
Zzreal的大数据笔记-SparkDay01
spark
大数据
系统架构
Spark 一、Spark概述 1、什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎。它集批处理、实时流处理、交互式查询和图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。 2、Spark的优点 速度。与hadoop的MR相比,Spark的运算要快100倍以上;而基于硬盘的计算也要快10倍以上。 易用。Spark支持java、python、scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Spark支持交互式的python和scala的she
企鹅号小编
2018-02-01
492
0
如何设计企业级大数据分析平台?
大数据
spark
数据库
nosql
传统企业的OLAP几乎都是基于关系型数据库,在面临“大数据”分析瓶颈,甚至实时数据分析的挑战时,在架构上如何应对?本文试拟出几个大数据OLAP平台的设计要点,意在抛砖引玉。 一、突破设计原则 建设企业
企鹅号小编
2018-02-01
1.3K
0
大数据开发如何规避细节问题,换一个角度来解决常见的细节问题
uml
hadoop
spark
5.开发细节 5.1工程结构讲解 本书共一个系统架构,二个产品模块(离线和实现),四个项目包:Stormanalyse,Loggenerator, ClickStreamETL,SparkClickStream接下来分别来介绍对应的项目模块: 5.1.1离线项目代码目录结构 离线大数据日志处理由两部分组成,第一部分是Hadoop MR组成的ClickStreamETL项目,第二个是有Spark内存计算组成的SparkClickStream项目。 📷 ClickStreamETL Hadoop版本的日志处理分
企鹅号小编
2018-01-29
722
0
关注专栏作者,随时接收最新技术干货
大数据弄潮儿
关注
Techeek
腾讯产品运营
关注
花落花飞去
腾讯社区运营
关注
QiqiHe
腾讯产品运营
关注
2017年大数据年终盘点:开源工具、MySQL和Python是最大赢家!
hadoop
spark
apache
2001年,Gartner给出了大数据的概念,即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征,即海量、速度和多样性,也很明确的为我们指出了大数据在哪些方面存在挑战。但是,16年过去了,现在大数据发展仍然没有达到边界,还是一个充满想象力的领域。 因为数据的存在,让很多新的行业焕发出了无限的价值,社交媒体网站可能就是一个典型的例子。对于企业来说,目前的主要问题就是如何使用收集来的数据创造价值。为此,Dzone社区调查
企鹅号小编
2018-01-25
549
0
Zzreal的大数据笔记-SparkDay03
spark
yarn
node.js
Spark的运行模式 📷 Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持,目前的实现包括相对稳定的Mesos模式,以及hadoop YARN模式。 本地模式:常用于本地开发测试,本地还分别 local 和 local cluster (1)standal
企鹅号小编
2018-01-25
562
0
Zzreal的大数据笔记-SparkDay04
spark
云数据库 SQL Server
数据库
大数据
Spark SQL SparkSQL的前身是Shark,它抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。 1、Spark SQL性能 Spark SQL比hive快10-100倍,原因: 内存列存储( In- Memory Columnar Storage ) 📷 基于Row的J
企鹅号小编
2018-01-24
739
0
大数据驱动的未来网络:体系架构与应用场景
大数据
spark
cdn
来源:学术plus(caeit-e) 摘 要:当前网络已经发展了40余年,存在许多问题亟待解决。随着美国产业互联网、德国工业4.0以及“互联网+”等战略的提出,当前的互联网所支撑的方向正在由消费型向生产型转变,但是基于TCP/IP的网络体系架构在可扩展性、安全性等方面都无法适应这一转变,因此未来网络受到了全球范围的重视,比较有代表性的工作包括软件定义网络和信息中心网络,另一方面,大数据技术也在各个行业崭露头角,这些新兴的技术都处于发展初期,仍存在许多问题亟待解决。本文将这些新技术的优势加以利用,提出了一种数
企鹅号小编
2018-01-23
1.2K
0
Zzreal的大数据笔记-SparkDay05
spark
Spark Streaming SparkStreaming部分没做知识点的笔记,直接从代码上理解它的用法。后面整理Storm的时候会与SparkStreaming做一个对比,如果这时候难以理解SparkStreaming的话就先照着代码学会怎么用,后面结合Storm来理解实时计算体系。 flume+SparkStreaming.conf ---SparkStreaming集成flume的flume配置 #以下是push模式 a1.sources = r1 a1.sinks = k1 a1.channels
企鹅号小编
2018-01-22
464
0
零基础小白成为大数据技术专家必知的学习历程
大数据
spark
hadoop
数据库
hbase
每天都会有很多小白在社交平台上问我:“青牛没有基础可以学习大数据吗?能不能学的懂啊?我不懂java可以学大数据吗?”,针对这些基础性的问题,我写了这篇文章,希望能够帮助到所有想学大数据技术的人们。 学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 📷 Java 大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Strut
企鹅号小编
2018-01-17
895
0
Hadoop和Spark的异同
spark
hadoop
大数据
解决问题的层面不一样 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 HDFS,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,通过将块保存到多个副本上,提供高可靠的文件存储。 MapReduce,通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的机器上并发地分布式处理大量数据集,而把并发、分布式和故障恢复等细节隐藏。 Hadoop复杂的数据处理需要分解为多个Job(包含一
企鹅号小编
2018-01-16
851
0
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
人工智能
机器学习
spark
大数据
tensorflow
译者|马卓奇 编辑|Natalie AI 前线导读:下一代人工智能应用程序需要不断地与环境交互,并从这些交互中学习。这对系统的性能和灵活性提出了新的要求,而现有的机器学习计算框架大多无法满足这些要求。为此,UC Berkeley AMP 实验室开发了一个高性能分布式执行框架 Ray,并于近日在 Arxiv 上发表了相关论文:《Ray: A Distributed Framework for Emerging AI Applications》。 更多干货内容请关注微信公众号“AI 前线”,(ID:ai-f
企鹅号小编
2018-01-16
1.6K
0
Flume日志采集应用架构升级与重构
spark
转眼新的一年又来了,趁着这段时间总结下2017这一年的工作经验,避免重复踩坑。MOB数据采集平台升级也快经历了半年时间,目前重构后线上运行稳定,在这过程中挖过坑,填过坑,为后续业务的实时计算需求打下了很好的基础。 一、升级与重构的原因 📷 旧有架构 上图为旧有架构,主要服务于Hadoop2.x离线计算(T+1)以及Spark的实时计算(T+0),但在数据采集、数据流动、作业调度以及平台监控等几个环节存在的一些问题和不足。 数据采集: 数据采集平台与数据统计分析系统分离,不能统一管理数据流向,并且消耗服务资源
企鹅号小编
2018-01-10
1.4K
1
如何避免大数据分析项目的失败
数据处理
spark
导语 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。 遵循以下六个最佳做法来超越竞争对手,创造新的收入来源,更好地为客户服务。 大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。 大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华
企鹅号小编
2018-01-09
1K
0
加速python科学计算的方法(二)
spark
python
好久不见。有一年了。 很久没有更推文了,我的错。额,进入正题吧。到了年底,很多App都会放出“你今年听了多少歌”、“你今年看了多少帖子”、“你今年剁手了多少次”等等的用户数据,并在其中进行较多的数据挖
企鹅号小编
2018-01-08
1.5K
0
有向无环图检测
spark
hadoop
apache
本文介绍了有向无环图(DAG)的相关概念和应用,包括弹性分布式数据集(RDD)和DAG图理论。文章还通过一个例子说明了DAG图的应用,并介绍了如何检测有向图是否存在环路。最后,文章展望了DAG图在机器学习领域的应用前景。","label":"技术社区
企鹅号小编
2018-01-04
2.5K
0
大数据生态圈到底是一个什么概念?和我们有关系吗?
spark
大数据
数据库
企鹅号小编
2017-12-26
711
0
大数据GIS技术之分布式计算全解析
spark
本文介绍了如何在大数据GIS应用中利用SuperMap iObjects Java for Spark实现分布式空间大数据处理和分析,包括空间数据索引、空间数据复制、空间数据连接、空间数据聚合等。通过这些功能,用户可以方便地对空间大数据进行预处理、分析、可视化,从而为城市规划、公共安全、环境保护等领域提供有价值的决策支持。
企鹅号小编
2017-12-26
3.4K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档