腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据
多年海量数据处理经验,化数据为力量
专栏作者
举报
174
文章
274443
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章(174)
大数据(94)
spark(19)
hadoop(19)
爬虫(15)
python(13)
数据库(12)
人工智能(12)
数据处理(12)
其他(9)
apache(8)
机器学习(7)
sql(7)
数据挖掘(5)
scrapy(5)
安全(5)
深度学习(4)
编程算法(4)
存储(4)
区块链(3)
神经网络(3)
数据分析(3)
数据可视化(3)
系统架构(3)
hbase(3)
NLP 服务(2)
ios(2)
java(2)
r 语言(2)
云数据库 SQL Server(2)
oracle(2)
github(2)
api(2)
linux(2)
spring(2)
mapreduce(2)
分布式(2)
安全漏洞(2)
数据结构(2)
虚拟化(2)
比特币(1)
数字货币(1)
tensorflow(1)
javascript(1)
go(1)
.net(1)
scala(1)
vue.js(1)
node.js(1)
xml(1)
html(1)
android(1)
nosql(1)
搜索引擎(1)
中文分词(1)
ubuntu(1)
腾讯云测试服务(1)
企业(1)
渲染(1)
svg(1)
yarn(1)
云+未来(1)
开源(1)
自动化(1)
运维(1)
黑客(1)
网络安全(1)
hive(1)
dns(1)
pytorch(1)
cdn(1)
kernel(1)
uml(1)
anaconda(1)
微信(1)
物联网(1)
https(1)
fpga(1)
企业组织(1)
云计算(1)
kafka(1)
max(1)
mean(1)
min(1)
pm2(1)
搜索文章
搜索
搜索
关闭
在Ubuntu上启动并运行Hadoop
linux
ubuntu
hadoop
Hadoop是一个用Java编写的框架,它允许在大型商品硬件集群上以分布式方式处理大型数据集。
大数据弄潮儿
2018-05-29
4.4K
0
带有Apache Spark的Lambda架构
大数据
hadoop
apache
市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark(Core,SQL,Streaming),Apache Parquet,Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的演示!
大数据弄潮儿
2018-05-29
1.9K
0
Hadoop/R 集成 I:流处理
hadoop
大数据
原文地址:https://dzone.com/articles/hadoopr-integration-i
大数据弄潮儿
2018-05-28
667
0
使用Hadoop分析大数据
大数据
hadoop
大数据由于其庞大的规模而显得笨拙,并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储,分析和处理数据的开源软件框架和平台。本文是Hadoop如何帮助分析大数据的初学者指南。
大数据弄潮儿
2018-05-24
734
0
后 Hadoop 时代的大数据技术思考:数据即服务
hadoop
大数据
1. Hadoop 的神话正在破灭 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced the retirement of the basic plan for its data analytics software platform, BigInsights for Hadoop. The basic plan of the service will be retired in a month, o
企鹅号小编
2018-02-28
971
0
关注专栏作者,随时接收最新技术干货
大数据弄潮儿
关注
Techeek
腾讯产品运营
关注
花落花飞去
腾讯社区运营
关注
QiqiHe
腾讯产品运营
关注
大数据干货系列(三)-Hadoop2.0总结
大数据
hadoop
本文共计810字,预计阅读时长五分钟 Hadoop2.0总结 一、本质 Hadoop2.0,相比于Hadoop1.0,最明显的区别是YARN系统和HDFS2.0的新特性 📷 二、Yarn解决了什么问题 1.降低运维成本和数据共享成本 2.减小了JobTracker(也就是现在的RM)的负担 3.使得多种计算框架可以运行在一个集群中 4.资源表示成内存量,解决了之前的map slot/reduce slot分开造成集群资源闲置的情况 三、HDFS2.0解决了什么问题 1.NameNode HA解决了Hadoo
企鹅号小编
2018-02-05
565
0
如何给Hadoop集群划分角色
hadoop
分布式
大数据
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量,真实要部署的哪些服务,硬件资源,配置,以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时,CM会根据主机的可用资源,自动的分配角色到各台主机,边
企鹅号小编
2018-02-02
3.3K
0
Spark是否可以完全取代Hadoop
hadoop
spark
大数据
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。然而,最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,Spark将立。他们究竟是危言耸听、哗众取宠,还是眼光独到堪破
企鹅号小编
2018-02-02
1.8K
0
No.67 Hadoop 实践案例——记录去重
大数据
hadoop
数据处理
转载声明 本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:转自:灯塔大数据;微信:DTbigdata 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了“Hello World”程序的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—
企鹅号小编
2018-02-01
876
0
大数据开发如何规避细节问题,换一个角度来解决常见的细节问题
uml
hadoop
spark
5.开发细节 5.1工程结构讲解 本书共一个系统架构,二个产品模块(离线和实现),四个项目包:Stormanalyse,Loggenerator, ClickStreamETL,SparkClickStream接下来分别来介绍对应的项目模块: 5.1.1离线项目代码目录结构 离线大数据日志处理由两部分组成,第一部分是Hadoop MR组成的ClickStreamETL项目,第二个是有Spark内存计算组成的SparkClickStream项目。 📷 ClickStreamETL Hadoop版本的日志处理分
企鹅号小编
2018-01-29
721
0
物联网中的大数据架构、应用案例以及带来的好处
大数据
android
ios
hadoop
作者:周硕彦 第一节 简介 近年来“物联网”(IoT)和“大数据”是两个最受瞩目的话题。在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结。这包括了手机、咖啡机、洗衣机、耳机、台灯以及可穿戴的设备,很多物品都是属于这个范畴(图 11.1)。这也适用于机器零件,例如:飞机的喷气发动机或石油钻井平台的钻头。无论有没有意识到这一点,我们的生活周围已经被这些依赖于大数据的东西所包围了,不过这也使得生活更美好。 图 11.1 物联网在连接设备的应用 (来源: the IPSO
企鹅号小编
2018-01-25
1.5K
0
2017年大数据年终盘点:开源工具、MySQL和Python是最大赢家!
hadoop
spark
apache
2001年,Gartner给出了大数据的概念,即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征,即海量、速度和多样性,也很明确的为我们指出了大数据在哪些方面存在挑战。但是,16年过去了,现在大数据发展仍然没有达到边界,还是一个充满想象力的领域。 因为数据的存在,让很多新的行业焕发出了无限的价值,社交媒体网站可能就是一个典型的例子。对于企业来说,目前的主要问题就是如何使用收集来的数据创造价值。为此,Dzone社区调查
企鹅号小编
2018-01-25
549
0
大数据安全问题分析及对策建议
安全漏洞
安全
hadoop
大数据
图片来自网络 作者简介:王竹欣,硕士,毕业于北京航空航天大学电子信息工程学院,现任职于中国信息通信研究院信息通信安全研究所,主要研究方向为网络安全、数据安全。陈湉,毕业于北京邮电大学计算机学院,硕士,现任中国信通院安全研究所数据安全研究部副主任,主要研究方向为大数据安全、个人信息保护。 随着大数据时代的到来,大数据技术为经济社会发展带来创新活力的同时,也使传统网络安全防护面临严重威胁与全新挑战。本文介绍了大数据技术及产业发展的有关背景,从数据安全、个人信息保护及大数据平台自身安全三个方面梳理大数据技术应
企鹅号小编
2018-01-23
1.9K
0
浅析大数据HIVE和HBASE有何区别
大数据
hadoop
hbase
apache
Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询,因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/Value系统,它运行在HDFS之上。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务。Hive被分区为表格,表格又
企鹅号小编
2018-01-22
956
0
零基础小白成为大数据技术专家必知的学习历程
大数据
spark
hadoop
数据库
hbase
每天都会有很多小白在社交平台上问我:“青牛没有基础可以学习大数据吗?能不能学的懂啊?我不懂java可以学大数据吗?”,针对这些基础性的问题,我写了这篇文章,希望能够帮助到所有想学大数据技术的人们。 学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 📷 Java 大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Strut
企鹅号小编
2018-01-17
895
0
Hadoop和Spark的异同
spark
hadoop
大数据
解决问题的层面不一样 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 HDFS,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,通过将块保存到多个副本上,提供高可靠的文件存储。 MapReduce,通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的机器上并发地分布式处理大量数据集,而把并发、分布式和故障恢复等细节隐藏。 Hadoop复杂的数据处理需要分解为多个Job(包含一
企鹅号小编
2018-01-16
851
0
大数据关键技术分析
hadoop
大数据
hbase
apache
本文介绍了大数据关键技术分析,包括Hadoop、HBase、MapReduce、Pig、Hive等框架及其应用。Hadoop具有高可靠性、高扩展性、高效性、高容错性和低成本等优点。通过使用这些技术,企业可以高效地进行数据存储和处理,提升数据分析的效率,降低成本。
企鹅号小编
2018-01-08
606
0
有向无环图检测
spark
hadoop
apache
本文介绍了有向无环图(DAG)的相关概念和应用,包括弹性分布式数据集(RDD)和DAG图理论。文章还通过一个例子说明了DAG图的应用,并介绍了如何检测有向图是否存在环路。最后,文章展望了DAG图在机器学习领域的应用前景。","label":"技术社区
企鹅号小编
2018-01-04
2.5K
0
什么是Kafka
大数据
hadoop
该文介绍了Kafka的基本概念、应用场景、优缺点、实现原理、主要概念、相关概念和主要功能。Kafka是一个分布式流媒体平台,用于发布和订阅记录流。它具有高吞吐量、可扩展性、持久性、容错性、实时性等特点。Kafka在大数据领域非常流行,用于实时数据处理、日志收集、流处理、事件驱动应用等。
大数据弄潮儿
2017-12-20
3.8K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档