首页
学习
活动
专区
工具
TVP
发布

加米谷大数据

加米谷大数据实战经验分享,大数据项目分享,大数据开发培训等
专栏作者
296
文章
344986
阅读量
61
订阅数
传统金融IT男转型互联网大数据码农(下)
环境准备:本地弄了五台虚拟机,开始搭建 Hadoop 集群,版本的话老师建议我们选择的 Hadoop 2.6.5(企业要的比较多的)
加米谷大数据
2020-05-22
6990
成为大数据工程师必备的技能有哪些?(上)
http://www.aboutyun.com/thread-11873-1-1.html
加米谷大数据
2020-05-09
7080
大数据的三类核心技术
Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理;
加米谷大数据
2019-11-26
1.1K0
0基础入门大数据开发学习的经典书籍推荐
本书内容丰富,展示了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。
加米谷大数据
2019-11-15
8530
Spark和Hadoop对比有什么区别?
Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储。Spark+Hadoop,是目前大数据领域最热门的组合。
加米谷大数据
2019-06-05
4.1K0
hdfs hbase hive hbase分别的适用场景
不想用程序语言开发MapReduce的朋友,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。
加米谷大数据
2019-04-19
1.4K0
大数据技术分享:Hadoop的相关工具
Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
加米谷大数据
2019-04-19
3320
大数据技术分享:十大开源的大数据技术
大数据已然成为当今热门的技术之一,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点受欢迎的十大开源的大数据技术。
加米谷大数据
2019-04-19
8560
大数据开发常用的编程语言有哪些
如果你的数据科学家不使用R,他们可能就会彻底了解Python。如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一
加米谷大数据
2019-01-09
1.3K0
大数据处理必备的十大工具
Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。
加米谷大数据
2019-01-09
2.6K0
hdfs hbase hive hbase分别的适用场景
不想用程序语言开发MapReduce的朋友,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。
加米谷大数据
2019-01-08
6740
Python连接Hive操作数据库
客户端连接Hive需要使用HiveServer2。HiveServer2是HiveServer的重写版本,HiveServer不支持多个客户端的并发请求。当前HiveServer2是基于Thrift RPC实现的。它被设计用于为像JDBC、ODBC这样的开发API客户端提供更好的支持。Hive 0.11版本引入的HiveServer2。
加米谷大数据
2018-07-25
4.5K0
大数据技术hive介绍
1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
加米谷大数据
2018-07-25
1.6K0
Hive的数据类型
本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。
加米谷大数据
2018-07-25
2K0
ZooKeeper在Hadoop中的应用
在Hadoop中,ZooKeeper主要用于实现HA(Hive Availability),包括HDFS的NamaNode和YARN的ResourceManager的HA。同时,在YARN中,ZooK
加米谷大数据
2018-06-04
2.5K0
技术分享 | 提升Hadoop性能和利用率你知道有哪些吗?
时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件,即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统。 Hadoop分布式文件系统用于整个集群中以块的形式在计算机之间存储数据。 MapReduce是一种编程模型,可以用来编写我们的业务逻辑并获取所需的数据。 而Yarn是HDFS和Spark、Hbase等其他应用程序之间的接口。我们不知道的是,Hadoop使用了很多其他应用程序有助于其最佳性能和利用率。 1、Hbase HBase是一个基于HDFS的
加米谷大数据
2018-04-02
1.3K0
技术干货 | Hive模式设计
过多使用分区可能导致非必须的Hadoop文件和文件夹,最终会超出NameNode对系统云数据信息的处理能力。 默认,每个task都是一个新的JVM实例,都需要开启和销毁的开销。对于小文件(小于一个块的大小),每个文件都会对应一个task。会导致JVM开启和销毁的时间中可能会比实际处理数据的时间消耗要长。 理想的分区方案部应该导致产生太多的分区和文件夹目录,并且每个目录下的文件应该足够大,应该是文件系统中块大小的若干倍。 不能够找到好的、大小相对合适的分区方式的话,可以考虑使用分桶表数据存储。 Hive没有主
加米谷大数据
2018-04-02
8060
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档