首页
学习
活动
专区
工具
TVP
发布

无题~

专栏作者
218
文章
267967
阅读量
22
订阅数
Hive中的数据类型以及案例实操
对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。
孙晨c
2020-10-10
8910
Hive数据的存储以及在centos7下进行Mysql的安装
表在创建时,有分隔符属性,这个分隔符属性,代表在执行MR程序时,使用哪个分隔符去分割每行中的字段! 查看表(实际在HDFS中也是一个文件)中的所有内容(包括分隔符):
孙晨c
2020-10-10
8270
Hive初体验
Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序
孙晨c
2020-10-10
3590
python字典、集合
@ 目录 dict(字典) 字典是无序的对象集合,使用键-值(key-value)存储,具有极快的查找速度。 键(key)必须使用不可变类型。 同一个字典中,键(key)必须是唯一的。 常用操作
孙晨c
2020-09-17
5700
MapReduce之自定义InputFormat
将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value(bytes) 对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。
孙晨c
2020-07-21
6310
NameNode是如何存储元数据的?
edits文件的产生: NN在启动之后,每次接受的写操作请求,都会将写命令记录到edits文件中,edits文件每间隔一定的时间和大小滚动!
孙晨c
2020-07-13
2.3K0
HDFS文件块大小(重点)
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。
孙晨c
2020-07-09
1.8K0
HDFS概述及其优缺点
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
孙晨c
2020-07-09
5010
Hadoop生态圈
HDFS: 负责大数据的存储 Common: HDFS和MR共有的常用的工具包模块! MapReduce: 负责计算,负责计算资源的申请的调度!
孙晨c
2020-07-06
3930
数据库系统概述
数据是数据库中存储的基本对象。描述事物的符号记录称为数据。数据是有结构的,记录是计算机中表示和存储数据的一种格式或一种方法。
孙晨c
2019-10-24
1.2K0
数据库系统的特点
数据结构化: 数据库系统实现整体数据的结构化,是数据库的主要特征之一,也是数据库系统与文件系统的本质区别。 “整体”结构化是指在数据库中的数据不再仅仅针对某一应用,而是面向全组织,不仅数据内部结构化,而且整体结构化,数据之间是有联系的。 这就要求描述数据时不仅要描述数据本身,还要描述数据之间的联系。 存取数据的方式很灵活,可以存取数据库中的某一个数据项、一组数据项、一个记录或一组记录,而在文件系统中,数据的存取单位是记录,粒度不能细到数据项。 数据的共享性高,冗余度低,易扩充: 数据共享
孙晨c
2019-10-24
1.3K0
初识Hadoop
高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据
孙晨c
2019-09-29
5210
SQL"已更新或者删除的行值要么不能使该行成为唯一行,要么改变了多个行(X行)“解决办法
  这种问题大多是由于没有主键(PK)导致同一张表中存在若干条相同的数据。DBMS存储时,只为其存储一条数据,因为DBMS底层做了优化,以减少数据冗余。所以删除或更新一条重复数据就牵一发而动全身。
孙晨c
2019-09-10
3.5K0
数据库基本知识
  字段、记录、表、约束(主键、外键、唯一键、非空、check、default、触发器)
孙晨c
2019-09-10
2350
树的存储、森林的存储
      由于计算机的内存是线性的,而树是非线性的。若在计算机里只存树的有效节点,便不能查找某个节点的子节点和父节点(或者说整个树的逻辑存储无法知晓),所以必须要先转化成完全二叉树,把垃圾节点补上。
孙晨c
2019-09-10
9320
链表排序算法、再次详细讨论到底什么是算法以及到底什么是泛型【重点】
1 #include<stdio.h> 2 #include<malloc.h> 3 #include<stdlib.h> 4 5 //函数声明 6 PNODE create_list();//返回值是链表头结点的地址 7 void traverse_list(PNODE pHead); 8 bool is_empty(PNODE pHead); 9 int length_list(PNODE pHead); 10 bool insert_list(PNODE,int
孙晨c
2019-09-10
2990
连续存储数组的算法(包含数组倒置、冒泡排序……)
线性结构【把所有的结点用一根直线穿起来】   连续存储【数组】、离散存储【链表】(不连续的,可分隔开来) 4 #include<stdio.h> 5 #include<malloc.h>//包含malloc函数 6 #include<stdlib.h>//包含exit函数 7 //定义了一个(复合)数据类型,名字叫struct Arr,该数据类型有三个成员: 8 struct Arr{ 9 int * pBase; //存储的是数组第一个元素的地址 10 int l
孙晨c
2019-09-10
7940
SQLServer中char、varchar、nchar、nvarchar的区别:
nvarchar(n) :包含 n个字符的可变长度 Unicode 字符数据。n 的值必须介于 1 与 4,000 之间。字节的存储大小是所输入字符个数的两倍。所输入的数据字符长度可以为零。
孙晨c
2019-09-05
4.7K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档