首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2424465
阅读量
187
订阅数
【平台】[Kafka系列]Kafka在大数据生态系统中的价值
作者 Jun Rao 为ODBMS撰写文章的转载。译者 Brian Ling,专注于三高(高性能,高稳定性,高可用性)的码农。 近几年, Apache Kafka的应用有了显著的增长。Kafka最新的
小莹莹
2018-04-25
1.1K0
Apache Hadoop 3.0新版本介绍及未来发展方向
过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全
小莹莹
2018-04-25
1K0
实用 | Apache Hadoop 3.0.0-alpha2版本发布
作者:Andrew Wang,Ray Chiang Andrew Wang是Cloudera公司HDFS团队的一名软件工程师、Apache Hadoop PMC成员和提交者,同时也是Hadoop 3的发布经理。 Ray Chiang是Cloudera公司RM团队的一名软件工程师,同时也是Apache Hadoop提交者。 链接:http://blog.cloudera.com/blog/2017/02/apache-hadoop-3-0-0-alpha2-released/ ◆◆◆ Apache Had
小莹莹
2018-04-24
6230
Apache Spark新方向:深度学习和流式数据处理支持
6月5~7日,Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust 和 Tim Hunter 分享了 《E
小莹莹
2018-04-24
1.1K0
[译]大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学
介绍 这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。 然而,最新的官方版本是0.5.0,还不支持R编程语言。幸运的是,NFLabs公司做了个
小莹莹
2018-04-24
2.1K0
【工具】大数据在线分析利器:Hue
Hue百科: Hue 是一种基于Apche hadoop基础平台的在线开源数据分析接口,参见 gethue.com Hue的主要功能: 提供SQL 接口:Hive, Impala, MySql, Po
小莹莹
2018-04-24
2.7K0
什么是 Apache Spark?大数据分析平台如是说
自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来,它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署,它为 Java、Scala、Python,和 R 编程语言提供了本地绑定,并且支持 SQL、流数据、机器学习,和图处理。你将会发现它被银行、电信公司、游戏公司、政府,和所有如 Apple、Facebook、IBM,和 Microsoft 等主要的科技巨头公司使用。 非常好,Spark 可以运行在一个只需要在你集群中的
小莹莹
2018-04-24
1.3K0
一文看懂HIVE和HBASE的区别
两者分别是什么Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/Value系统,它运行在HDFS之上。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务。H
小莹莹
2018-04-24
2.2K0
【学习】2分钟读懂大数据框架Hadoop和Spark的异同
  谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
小莹莹
2018-04-23
7380
关键七步,用Apache Spark构建实时分析Dashboard
作者 | Abhinav 译者:王庆 摘要:本文我们将学习如何使用Apache Spark streaming,Kafka,Node.js,Socket.IO和Highcharts构建实时分析Dashboard。 问题描述 电子商务门户希望构建一个实时分析仪表盘,对每分钟发货的订单数量做到可视化,从而优化物流的效率。 解决方案 解决方案之前,先快速看看我们将使用的工具: Apache Spark – 一个通用的大规模数据快速处理引擎。Spark的批处理速度比Hadoop MapReduce快近10倍
小莹莹
2018-04-23
1.8K0
Ambari——大数据平台的搭建利器
Ambari 是什么 Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让
小莹莹
2018-04-23
1.2K0
【译文】Spark高速实时分析
Apache Hadoop是一个成熟的开发框架,它有庞大的生态系统,并得到了Cloudera,Hortonworks,雅虎等重要参与者的支持和贡献。Apache Hadoop为企业管理各种规模的数据提供了工具。 在过去,Hadoop的批量处理特性使得使用MapReduce就足以满足大部分企业的处理需求。然而,越来越多的数据需要更快速的处理,这些需求来自于流技术、物联网和实时分析等领域的快速发展 。这些新的需求需要新的处理模式,现在,Apache Spark作为可以满足这些需求的一项重要新技术,已经获得相
小莹莹
2018-04-20
5500
【工具】Apache Spark 1.5发布了!!!
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。 DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式,计算直接发生在二进制格式上,省去了序列化和反序列化时间。同
小莹莹
2018-04-20
5850
【盘点】六个步骤助你最大化大数据的商业价值
上个月公布的一项调查结果显示,由Apache基金会所开发的分布式系统基础架构Hadoop可能即将面临着来自资金链方面的压力与挑战。具体而言,调查中的绝大多数受访者都表示目前没有对Hadoop的投资计划
小莹莹
2018-04-20
4880
2015十一项全球最具权威的大数据资质认证
大数据时代,考计算机证已经out到天边去了。具备大数据分析相关经验的数据科学家与分析师以及了解如何打理Hadoop集群与其它技术的工程师与开发人员如今正变得炙手可热。当下与大数据紧密相关的认证数量正迅
小莹莹
2018-04-19
1.3K0
【观点】NoSQL市场两分格局是个伪命题, HBase有望后来居上
在NoSQL数据库领域,统治产品无疑当属MongDB和DataStax Enterprise(一个领先的Apache Cassandra发行版)。但近来MongoDB,甚至整个NoSQL数据库市场不断遭受IT业界质疑,认为“大数据时代NoSQL并非颠覆性技术”,MongoDB技术门槛不高,其市场正面临Teradata、MemSQL和Heroku的威胁。这使得很多潜在用户开始担心——MongoDB的成功是否建立在过度的炒作之下。 在Mongo DB遭受质疑的同时, 媒体开始关注一个顽强,但
小莹莹
2018-04-19
8530
【资讯】数据控使用Hadoop的三种最常用方式
Apache Hadoop 2.0发布是Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命。Hadoop保留它典型的“大数据”基础技术,但它是否适合当下数据库及数据仓 库的使用方式?又是否有一种通用模式可以切实降低固有的使用复杂性呢? Hadoop使用的一般模式 Hadoop最初的构想是为像Yahoo、Google、Facebook等这样的公司以非常低的成本来解决大量数据的存储问题。现在,它正被越来 越多地引入企业环境中处理新不同数据类型。机器生成的数据、
小莹莹
2018-04-18
5070
Hadoop并非完美:8个代替 HDFS的绝佳方案
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。 Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目、非常规项目、要求不严格的大环境中比 较适用,但是对于某些Hadoop用户来说,他们对于性能、可用
小莹莹
2018-04-18
1.8K0
【新闻】大数据初创企业Concurrent获千万美元融资
大数据初创企业Concurrent刚刚获得了 1000 万美元的新一轮融资。 大数据方兴未艾,Hadoop 则是大数据最流行的基础平台。围绕着 Hadoop 进行创新的初创企业有很多。如 Trifac
小莹莹
2018-04-18
5010
【技术】Hadoop选择:可供参考的几大因素
Apache Hadoop的发展已经经历了很长一段时间,也经历也一段从初生到成熟之旅,在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能。政府、制造业、医疗保健、零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案限制的公司将会发现竞争变得越来越残酷。 选择一个合适的Hadoop发行版和在业务中应用Hadoop一样有必要。最终,你会发现选择哪种Hadoop发
小莹莹
2018-04-18
6500
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档