首页
学习
活动
专区
工具
TVP
发布

开源部署

专栏成员
4665
文章
6707019
阅读量
54
订阅数
大数据类型处理
所谓大数据,就是大的字节数据,或大的字符数据。标准SQL中提供了如下类型来保存大数据类型:
星哥玩云
2022-09-14
4760
MongoDB 数据库的学习与使用详解
​ MongoDB 数据库是一种 NOSQL 数据库,NOSQL 数据库不是这几年才有的,从数据库的初期发展就以及存在了 NOSQL 数据库。数据库之中支持的 SQL 语句是由 IBM 开发出来的,并且最早就应用在了 Oracle 数据库,但是 SQL 语句的使用并不麻烦,就是几个简单的单词:SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY,但是在这个时候有人开始反感于编写 SQL 操作。于是有一些人就开始提出一个理论 —— 不要去使用 SQL ,于是最早的 NOSQL 概念产生了。可是后来的发展产生了一点变化,在 90 年代到 2010 年之间,世界上最流行的数据库依然是关系型数据库,并且围绕着关系型数据库开发出了大量的程序应用。后来又随着移动技术(云计算、大数据)的发展,很多公司并不愿意去使用大型的厂商数据库 —— Oracle 、DB2,因为这些人已经习惯于使用 MYSQL 数据库了,这些人发现在大数据以及云计算的环境下,数据存储受到了很大的挑战,那么后来就开始重新进行了 NOSQL 数据库的开发,但是经过长期的开发,发现 NOSQL 数据库依然不可能离开传统的关系型数据库 (NOSQL = Not Only SQL)。
星哥玩云
2022-08-18
1.9K0
MySQL中group by 与 order by 一起使用排序问题
没有得到我们需要的结果,这是因为group by 和 order by 一起使用时,会先使用group by 分组,并取出分组后的第一条数据,所以后面的order by 排序时根据取出来的第一条数据来排序的,但是第一条数据不一定是分组里面的最大数据。
星哥玩云
2022-08-18
1.6K0
Hadoop Shell基本操作
我们都知道HDFS 是存取数据的分布式文件系统,那么对HDFS 的 操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权 限等,文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于lLinux 的shell 对文件的操作,如ls、mkdir、rm 等。
星哥玩云
2022-08-08
3170
Ubuntu 18.04.1上安装Hadoop 3.1.1集群详解
本文将介绍如何在基于Ubuntu的系统上安装多节点Hadoop 3.1.1集群,作者将在Ubuntu 18.04.1上安装一个包含HDFS的三节点Hadoop集群。
星哥玩云
2022-07-27
4110
Flink开发IDEA环境搭建与测试
Flink具有特殊类DataSet并DataStream在程序中表示数据。您可以将它们视为可以包含重复项的不可变数据集合。在DataSet数据有限的情况下,对于一个DataStream元素的数量可以是无界的。
星哥玩云
2022-07-26
1.1K0
CentOS7.5搭建Flink1.6.1分布式集群详解
安装包下载地址:http://flink.apache.org/downloads.html  ,选择对应Hadoop的Flink版本下载
星哥玩云
2022-07-26
8950
Flink入门基础 – 简介
        这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。
星哥玩云
2022-07-26
7730
Hadoop2.5.0伪分布式环境搭建
本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤。首先要搭建Hadoop伪分布式环境,需要完成一些前置依赖工作,包括创建用户、安装JDK、关闭防火墙等。
星哥玩云
2022-07-26
6190
Hadoop2.0完全分布式集群搭建方法(CentOS7+Hadoop2.7.7)
本文详细介绍搭建4个节点的完全分布式Hadoop集群的方法,Linux系统版本是CentOS 7,Hadoop版本是2.7.7,JDK版本是1.8。
星哥玩云
2022-07-25
7810
CentOS 7 下搭建Hadoop 2.9 分布式集群
首先说明,本文记录的是搭建的3节点的完全分布式Hadoop集群的过程,环境是CentOS 7,1个nameNode,2个dataNode,如下:
星哥玩云
2022-07-24
2390
使用Apache Flink和Kafka进行大数据流处理
Flink是一个开源流处理框架,注意它是一个处理计算框架,类似Spark框架,Flink在数据摄取方面非常准确,在保持状态的同时能轻松地从故障中恢复。
星哥玩云
2022-07-20
1.2K0
快速了解HDFS、NameNode和DataNode
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。
星哥玩云
2022-07-19
1.1K0
初识HDFS原理及框架
      HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,首先它是一个文件系统,用于存储文件,通过目录树来定位文件位置;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
星哥玩云
2022-07-19
3800
Apache Beam实战指南 | 玩转KafkaIO与Flink
AI前线导读:本文是 **Apache Beam实战指南系列文章** 的第二篇内容,将重点介绍 Apache Beam与Flink的关系,对Beam框架中的KafkaIO和Flink源码进行剖析,并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka和Flink。系列文章第一篇回顾Apache Beam实战指南之基础入门
星哥玩云
2022-07-14
3.6K0
使用HDFS dfs命令对文件进行增删改查操作
例如我现在位于/usr/local/source路径下面,我想把当前路径下的Hadoop-2.7.3.tar.gz上传到hdfs上面,hadoop-2.7.3.tar.gz这个文件大概是200M左右,那么它将会被分成2块,因为hdfs默认的块大小是128M.
星哥玩云
2022-07-14
1K0
简单认识namenode和datanode
1. 首先在npdev1机器上面运行hadoop-daemon.sh start namenode,启动namenode.
星哥玩云
2022-07-14
4350
使用Docker部署Hadoop集群
1、在docker中安装CentOS镜像,并启动centos容器,安装ssh。--详见"docker上安装centos镜像"一文。
星哥玩云
2022-07-14
8010
CentOS7 或 RHEL7下搭建Hadoop 2.7.6完全分布式
这里搭建的是3个节点的完全分布式,即1个nameNode,2个dataNode,分别如下:
星哥玩云
2022-07-13
3330
CentOS 7.4下Hadoop 2.7.6安装部署
[root@mini01 ~]# cat /etc/hosts  127.0.0.1  localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1        localhost localhost.localdomain localhost6 localhost6.localdomain6 10.0.0.11    mini01 10.0.0.12    mini02 10.0.0.13    mini03 10.0.0.14    mini04 10.0.0.15    mini05
星哥玩云
2022-07-13
4550
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档