首页
学习
活动
专区
工具
TVP
发布

企鹅号快讯

企鹅号技术类相关资讯
专栏成员
3887
文章
4688274
阅读量
292
订阅数
如何成为大数据Spark高手
企鹅号小编
2017-12-29
1.3K0
大数据入门基础系列之浅谈Hive的执行原理
企鹅号小编
2018-01-02
8850
提高Spark姿势水平 No.73
本文介绍了如何利用Spark进行大数据处理,包括五个步骤:数据导入、数据转换、数据计算、数据分析和数据可视化。同时,本文还介绍了Spark在机器学习、图计算和流处理等方面的应用。最后,本文提供了一些Spark的优化建议,包括调整Spark配置、使用持久化存储和优化Shuffle等。
企鹅号小编
2018-01-04
7680
关于大数据你需要知道的一切
📷 摘要:分析大量的数据只是使大数据与以前的数据分析不同的部分,还需要了解其他三方面是什么。 人类每天都吃、睡、工作、玩,这生产数据并且是大量的数据。根据IBM的数据,人类每天产生2.5万亿(250亿
企鹅号小编
2018-01-08
6980
spark环境构建(4)
作者:王远东 ,重庆芝诺大数据分析有限公司大数据开发工程师。 提前说明一下,大数据的搭建环境都是在Linux系统下构建,可能针对一些没有Linux编程基础的同学来说会有一些吃力,请各位客官放心,小店伙计后期会专门有几期来讲解Linux编程基础。绝对保证零基础完成大数据环境的构建。今天大数据环境构建后会暂停其他组件(hue、flume、kafka、oozie等)的构建,后面的文章就是基于该环境讲解大数据的应用。 一 安装zookeeper 参考:大数据开发Hadoop分布式集群环境构建(1) 二 安装spar
企鹅号小编
2018-01-10
7690
基于区块链与大数据构建共享经济基石
导读:将区块链技术或者其采用的算法证明机制引入共享经济,可以建成一个完全透明、无主、分散的共享平台和系统。能在没有任何形式中介的情况下,保证各种交易方安全进行交易,这些交易方包括个人、企业甚至是政府。区块链有可能成为共享经济或者互联网的基石,在未来,区块链会上升到数据治理和经济治理层面,从而极大地改变经济模式,改变我们整个世界的生产和运营模式。且随郭树行博士一起了解一下基于区块链与大数据如何构建共享经济基石。 ▌区块链与大数据的发展差距 大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性
企鹅号小编
2018-01-10
1.8K0
大数据入门基础系列之浅谈Hive和HBase的区别
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 在前面的博文里,我已经介绍了 Hive和HBase分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/Value系统,它运行在HD
企鹅号小编
2018-01-11
8070
你了解你的数据吗
0x00 前言 你了解你的数据吗? 前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。 数据从业者有很多,比如说数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师、数据产品经理等等,不同岗位的童鞋对数据的理解有很大的不一样,而且侧重点也不同。那么,是否有一些数据相关的基础知识是所有数据从业者都值得了解的?不同的岗位对数据的理解又有多大的不同?数据开发工程师是否有必要去了解数据分析师是如何看待数据的? 本系列博客会尝试去学习、挖掘和总结这些内容,在数据的海
企鹅号小编
2018-01-12
8990
人工智能、区块链、图灵测试……这30个大数据热词你真的都懂吗?
2017年,大数据产业依旧保持高速增长态势,并从单一的技术概念逐渐转化为新要素、新战略、新思维。鉴别真假内行的时候来了,你真的明白这些科技热词的意思吗?小编为您挑选了30个和大数据相关的网络热词,或许无实际用处仅有助谈资。 AI人工智能Artificial Intelligence 📷 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并
企鹅号小编
2018-01-23
8910
基于大数据的计量公共服务平台设计及应用价值研究
  在当前国家倡导的“质量强国”战略中,计量起到极其关键的作用,计量技术的发展支撑着社会发展的各个方面;计量技术的创新引领了科技和产业的创新。而在大数据时代,数据已成为企业不可或缺的战略性资源。如何运用“工业4.0”、“中国制造2025”思维和大数据等高新技术,发挥以计量数据为主的数据在经营、管理、决策中的作用,整合计量机构的数据资源,创新性地挖掘数据在应用方面的价值,为社会提供计量信息公共服务,为企业提供计量业务的增值服务,为行政单位提供计量业务的统计分析和预研预判服务,已成为一个非常重要且紧迫的课题。
企鹅号小编
2018-01-30
1.5K0
大数据处理框架是怎样的原理
处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作用的一系列组件。 例如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使用。例如另一个框架Apache Spark可以纳入Hadoop并取代MapReduce。组件之间的这种互操作性是大数据系统灵活性如此之高的原因之一。 虽然负责处理生命周期内这一阶段数据的系
企鹅号小编
2018-02-06
9340
浅谈机器学习业务方面使用R+Hadoop 是否可靠
众所周知,R 在解决统计学问题方面无与伦比。但是 R 在数据量达到 2G 以上速度就很慢了,于是就催生出了与 hadoop 相结合跑分布式算法这种解决方案,但是,python+Hadoop 这样的解决方案有没有团队在使用?R 这样起源于统计学的计算机包与 Hadoop 相结合会不会出问题?因为他们在不懂R和Hadoop的特征应用场景的情况下,恰好抓到了一根免费,开源的稻草。 R: R的应用场景不在于无与伦比的统计学习能力,而在于 结构化数据 下无与伦比的单位代码产出量。神经网络,决策树等基于结构化数据的 算
企鹅号小编
2018-02-08
6720
未来已来,跟上云时代的步伐吧!
我们今天实际上所面对的一切都是未来将发生的一切,我用了一个词叫未来已来。比如说我们今天讲非常多的云计算,实际生活中你可能看不到它,但是它已经在今天发生,其实是未来已经来了。如果说云时代的未来已经来了,最主要面对的问题到底是什么?我想说的就是及时掌握云计算的六大法宝: 1、虚拟化技术 服务器虚拟化、存储虚拟化、网络虚拟化、弹性计算 技术成熟度:★★★★☆ 📷 2、大规模分布式数据管理技术 GFS文件系统、BigTable、HadoopHDFSHBase、Amazon Dynano、Amazon SimpleD
企鹅号小编
2018-03-01
8290
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档