腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏作者

296

文章

344986

阅读量

61

订阅数

传统金融IT男转型互联网大数据码农（下）

hadoop hive spark 大数据编程算法

环境准备：本地弄了五台虚拟机，开始搭建 Hadoop 集群，版本的话老师建议我们选择的 Hadoop 2.6.5(企业要的比较多的)

加米谷大数据

2020-05-22

6990

成为大数据工程师必备的技能有哪些？（上）

hive mapreduce http java hbase

http://www.aboutyun.com/thread-11873-1-1.html

加米谷大数据

2020-05-09

7080

大数据的三类核心技术

hadoop 数据库 hive 分布式大数据

Flume NG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理；

加米谷大数据

2019-11-26

1.1K0

0基础入门大数据开发学习的经典书籍推荐

hadoop hive hbase TDSQL MySQL 版 kafka

本书内容丰富，展示了如何使用Hadoop构建可靠、可伸缩的分布式系统，程序员可从中探索如何分析海量数据集，管理员可以了解如何建立与运行Hadoop集群。

加米谷大数据

2019-11-15

8530

Spark和Hadoop对比有什么区别？

spark hive sql 大数据 mapreduce

Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储。Spark+Hadoop，是目前大数据领域最热门的组合。

加米谷大数据

2019-06-05

4.1K0

hdfs hbase hive hbase分别的适用场景

mapreduce hive hadoop hbase TDSQL MySQL 版

不想用程序语言开发MapReduce的朋友，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

加米谷大数据

2019-04-19

1.4K0

大数据技术分享：Hadoop的相关工具

hadoop hive apache mapreduce 大数据

Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。

加米谷大数据

2019-04-19

3320

大数据技术分享：十大开源的大数据技术

spark apache hive sql

大数据已然成为当今热门的技术之一，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点受欢迎的十大开源的大数据技术。

加米谷大数据

2019-04-19

8560

大数据开发常用的编程语言有哪些

python hadoop hive

如果你的数据科学家不使用R，他们可能就会彻底了解Python。如果你有一个需要NLP处理的项目，就会面临数量多得让人眼花缭乱的选择，包括经典的NTLK、使用GenSim的主题建模，或者超快、准确的spaCy。还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式，将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一

加米谷大数据

2019-01-09

1.3K0

大数据处理必备的十大工具

hadoop hive apache sql 开源

Hive是一个建立在Hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。

加米谷大数据

2019-01-09

2.6K0

hdfs hbase hive hbase分别的适用场景

hive hbase 数据库 hadoop

不想用程序语言开发MapReduce的朋友，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

加米谷大数据

2019-01-08

6740

Python连接Hive操作数据库

python hive 数据库 rpc

客户端连接Hive需要使用HiveServer2。HiveServer2是HiveServer的重写版本，HiveServer不支持多个客户端的并发请求。当前HiveServer2是基于Thrift RPC实现的。它被设计用于为像JDBC、ODBC这样的开发API客户端提供更好的支持。Hive 0.11版本引入的HiveServer2。

加米谷大数据

2018-07-25

4.5K0

大数据技术hive介绍

hadoop hive 大数据存储云数据库 SQL Server

1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

加米谷大数据

2018-07-25

1.6K0

Hive的数据类型

hive 存储数据库 java

本文介绍hive的数据类型，数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

加米谷大数据

2018-07-25

2K0

ZooKeeper在Hadoop中的应用

zookeeper hive 分布式

在Hadoop中，ZooKeeper主要用于实现HA(Hive Availability），包括HDFS的NamaNode和YARN的ResourceManager的HA。同时，在YARN中，ZooK

加米谷大数据

2018-06-04

2.5K0

技术分享 | 提升Hadoop性能和利用率你知道有哪些吗？

hadoop hive mapreduce java hbase

时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件，即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统。 Hadoop分布式文件系统用于整个集群中以块的形式在计算机之间存储数据。 MapReduce是一种编程模型，可以用来编写我们的业务逻辑并获取所需的数据。而Yarn是HDFS和Spark、Hbase等其他应用程序之间的接口。我们不知道的是，Hadoop使用了很多其他应用程序有助于其最佳性能和利用率。 1、Hbase HBase是一个基于HDFS的

加米谷大数据

2018-04-02

1.3K0

技术干货 | Hive模式设计

jvm hive 存储

过多使用分区可能导致非必须的Hadoop文件和文件夹，最终会超出NameNode对系统云数据信息的处理能力。默认，每个task都是一个新的JVM实例，都需要开启和销毁的开销。对于小文件（小于一个块的大小），每个文件都会对应一个task。会导致JVM开启和销毁的时间中可能会比实际处理数据的时间消耗要长。理想的分区方案部应该导致产生太多的分区和文件夹目录，并且每个目录下的文件应该足够大，应该是文件系统中块大小的若干倍。不能够找到好的、大小相对合适的分区方式的话，可以考虑使用分桶表数据存储。 Hive没有主

加米谷大数据

2018-04-02

8060

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态