加米谷大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏成员

296

文章

360012

阅读量

61

订阅数

10本值得你读的Apache Spark书籍

spark apache 大数据数据结构机器学习

Apache Spark是Apache的开源大数据框架，具有与SQL，流，图处理和机器学习有关的内置模块。它于2010年开源，从一开始就对大数据和相关技术产生了明显影响，因为它很快吸引了250多个组织和超过1000个参与者的关注。拥有众多Apache Spark书籍，很难找到用于自学的最佳书籍。

加米谷大数据

2020-06-02

4.5K0

0基础转行大数据，2020年须知的十个大数据技术

hadoop 区块链机器学习 apache

数字时代最先进的技术之一就是大数据技术。大数据不仅仅是个术语。它与机器学习、人工智能、区块链、物联网和增强现实等其他技术密切相关。

加米谷大数据

2020-02-14

4880

大数据入门须知的51个大数据术语（1）

apache 大数据编程算法开源分布式

本文从最近的大数据指南中创建了一份汇编清单，其中列出了我们认为最重要的相关术语和定义。

加米谷大数据

2020-02-14

6190

Hadoop的发家简史

hadoop mapreduce apache hbase

说到大数据技术不得不提起Hadoop，今天加米谷大数据就来简单介绍一下Hadoop的简史。

加米谷大数据

2019-06-05

1.6K0

大数据技术分享：Hadoop的相关工具

hadoop hive apache mapreduce 大数据

Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。

加米谷大数据

2019-04-19

3410

大数据技术分享：十大开源的大数据技术

spark apache hive sql

大数据已然成为当今热门的技术之一，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点受欢迎的十大开源的大数据技术。

加米谷大数据

2019-04-19

9000

大数据处理必备的十大工具

hadoop hive apache sql 开源

Hive是一个建立在Hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。

加米谷大数据

2019-01-09

2.7K0

大数据Hadoop入门需要填的坑

hadoop 分布式 hbase apache

Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点。

加米谷大数据

2019-01-09

4440

比拼生态和未来，Spark和Flink哪家强？

spark api apache 运维开源

Spark 是最活跃的 Apache 项目之一。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。Spark 因为在引擎方面比 MapReduce 全面占优，经过几年发展和 Hadoop 生态结合较好，已经被广泛视为 Hadoop MapReduce 引擎的取代者。

加米谷大数据

2019-01-09

9790

容易搞混大数据分析学习的工具

hadoop mongodb 云数据库 MongoDB apache

大数据已成为当今企业不可分割的一部分，越来越多的企业纷纷寻找熟悉大数据分析工具的人。他们都期望员工在技术方面体现能力，并展示才华和思维过程。到目前为止流行的所谓的需求技能已经不再了，如果今天还有什么比较大热的技能，那就是大数据分析。

加米谷大数据

2019-01-09

6660

apache sql hadoop 分布式大数据

Impala 是一个高性能分析数据库，可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化，大规模分布式，大规模并行的 C ++ 查询引擎，可以分析，转换和合并来自各种数据源的数据。Impala采用与Hive相同的元数据、SQL语法、ODBC 驱动程序和用户接口(Hue Beeswax)，这样在使用CDH产品时，批处理和实时查询的平台是统一的。

加米谷大数据

2018-07-25

1.9K0

Flume的高可靠，高性能和高扩展性

https apache 开源 ruby

Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建，所以依赖Java运行环境。

加米谷大数据

2018-07-25

7490

什么是 Apache Spark？大数据分析平台详解

apache spark 大数据分布式

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。

加米谷大数据

2018-07-25

1.2K0

【活动回顾】成都理工信科院大数据技术讲座

大数据 spark apache 开源

活动背景大数据时代已经到来，从国家到地方政府再到企业，都在致力与发展大数据，大数据也已经影响到我们生活的方方面面。2018年5月16日晚加米谷大数据应邀到成都理工大学信科院进行大数据技术讲座。活动目的大数据技术讲座的开展，让学生更深刻的了解什么是大数据，让学生能提早的了解到大数据相关职业，以便在未来的发展方向上提前做好准备。主讲人张安文，加米谷大数据创始人，国家大数据标准组成员，Spark Contributor，资深大数据专家，15年互联网IT技术经验，6年大数据项目实战经验，精通大数据领域

加米谷大数据

2018-06-04

4440

技术分享 | kafka的使用场景以及生态系统

apache 缓存 rabbitmq

kafka的使用场景今天介绍一些关于Apache kafka 流行的使用场景。这些领域的概述消息 kafka更好的替换传统的消息系统，消息系统被用于各种场景（解耦数据生产者，缓存未处理的消息，等），与大多数消息系统比较，kafka有更好的吞吐量，内置分区，副本和故障转移，这有利于处理大规模的消息。根据我们的经验，消息往往用于较低的吞吐量，但需要低的端到端延迟，并需要提供强大的耐用性的保证。在这一领域的kafka比得上传统的消息系统，如的ActiveMQ或RabbitMQ的。网站活动追踪 kafka

加米谷大数据

2018-04-02

3.7K0

技术分享 | spark之广播变量设计和实现

spark 广播的方式 spark 历史上采用了两种广播的方式一种是通过 Http 协议传输数据一种是通过 Torrent 协议来传输数据但是最新的 spark 版本中， http 的方式已经废弃了（pr 在此https://github.com/apache/spark/pull/10531）， spark 是在 spark 1.1 版本中引入了 TorrentBroadcast，此后就没有更新 HttpBroadcast 和相关文档了， spark2.0 的时候完全可以删除 HttpBroadc

加米谷大数据

2018-04-02

8370

技术分享 | Apache Kafka下载与安装启动

apache scala zookeeper

壹下载注意:别下成源文件了！带src的是源文件,如： Source download: kafka-0.10.1.0-src.tgz (asc, md5) 你应该下的是： Scala 2.11 - kafka_2.11-0.10.1.0.tgz (asc, md5) 推荐下载scala 2.11版本的你可以登录Apache kafka 官方下载。 http://kafka.apache.org/downloads.html 贰安装与启动 kafka的背景知识已经讲了很多了，让我们现在开始实践吧，假

加米谷大数据

2018-04-02

2.3K0

技术干货 | Hadoop3.0稳定版安装攻略来啦！

Apache Hadoop 3.0.0在前一个主要发行版本（hadoop-2.x）中包含了许多重要的增强功能。这个版本通常是可用的（GA），api稳定性和质量已经到了可以再生成中使用的步骤。一概

加米谷大数据

2018-04-02

1.9K0

技术干货 | hadoop之hdfs安全模式

namenode启动时，首先将映像文件（fsimage）载入内存，并中兴编辑日志中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件（该操作不需要借助namenode）和一个空的编辑日志。此时，namenode开始监听RPC和http请求。但是此刻namenode运行在安全模式，即namenode的文件系统对于客户端来说是只读的。（只有访问文件系统元数据的文件系统操作时肯定成功执行的，对于读文件操作，只有集群中当前datanode上的块可用时，才能工作。但文件修改操作，包

加米谷大数据

2018-04-02

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态