00:00
来咱们接着说今天的内容啊,今儿个的第一个内容编码啊编码,编码啊是一个比较复杂的东西啊,比较复杂的东西,讲编码之前啊,这样之前咱们先说一说从通信的这个发展史啊,通信的发展史,最早的通信是什么样的。最早的你知道最早的风景,最早是是这吼,我说我说比方说我是大元哥啊,山元哥在这就能听得见对吧,两人的吼,但是随着距离的拉长对吧,声波的一个损损耗,最终你是吼不到地方的,比方说你的这个山头在这个山头对吧,偶尔也能听见,但是山头如果再远一点,对吧,就听不见了,比方说举个例子,你在北京,然后你在南京,我在北京,你在南京,我吼破了喉咙,也不会有人答应我,是吧?所以最早的编馆啊,不是最早,偏最早通信就是靠靠吼,然后呢,就发现出来一个新东西叫信,写信啊,写信给谁谁写信,对吧,比方说写乌,你老婆今天在家吗?对吧?那么这是一种怎么就是通气的方式,然后再往后发现信有一个非常。
01:27
大的一个弊端,时效,时效性问题是吧,比方说我问乌特啊,你老婆今天在家吗?乌特他给我还给我是吧,不在家,结果我到了之后对吧,半个月之后了是吧,半个月之后了,所以这个时效性很差,然后呢,大家就开始就是发展,开始就是琢磨对吧,琢磨说这个信的这种这种物理的这种传说啊,是比较比较比较累的,那怎么办呢?就开始研究新玩意啊,研究新玩意研究什么呢?所谓的叫什么,那个叫叫电磁锅。
02:00
电磁波啊,就给你发,发那个信号啊,发那个信号,电子信号,那么发信号的时候就会出现一个问题,对于信号这种东西而言,或者说电信号,或者声波信号,或者是这个所谓的物理的那种信号,它在传输的时候,传输的时候就好比说,比方说咱们现在发的是电信号啊,发电报,发那个电报,抗日神剧见到的总有个人站在一个孩子面前,搁那叨叨哒哒哒哒,摁知吧,摁的是啥也不知道,反正就搁那叨哒是吧,谁在那搭档搭到完了之后告诉你结果是吧,那么这种东西挺好,最早那种电报机也好,或者最早的摩斯马听过吧,摩斯经常把摩斯马神话就是那个叫什么,就是那个那个那个叫,哎,我总想不起来那个电影无间道无间无间道里面对吧,那个人都简直简直牛逼到不得了,就那哒哒哒哒哒在那抄是吧,那边就搁那听,听完之后就知道是什么,这道正常的情况下是不可能直接就能拿。
03:01
小字翻译出来的,不能直接翻译出来,因为摩丝马是什么样的,知道吧,摩斯马它是长短长短,知道吧,长短长短就说白了,你挑一个长的月饼,然后挑一个短的,一个长的一个短的,这样组成一个六位的东西,是一个摩斯码啊,六位的东西是一个摩斯法,然后呢,慢慢的去去这个发展啊,慢慢的去发展计算机慢慢的产生,计算机产生了之后,产生了之后想想计算机最底层认识的是什么玩意,零和一,它只有零和一,它没有别的玩意儿,懂吧,它没有别的玩意儿,所以最早的计算机里面,它只有零和一,那么这个时候你想发送一个文字性的东西,比方说我爱你。嗯嗯什没有,可是举例啊,这三个字,我把这三个字要发出去,兄弟们,我想把这三个字发出去,那么这时候你看你是不是得想办法把这三个字给我变成离婚一这种东西是吧是吧,所以最早的人就开始琢磨啊,怎么去让你写的那个文字给它变成所谓的零和一,在计算机中存储,以及在计算机中互相的进行传播传输,所以那个时候就开始有老外啊,老外那些聪明人叫聪明这个人,这种事儿傻子是干不了的,只能聪明人来办,怎么办呢?他把咱们日常生活中常用的文字符号信息给它编码成010101,说白了我写一个字,比方说我写一个I loveyou,那么这个字它是由什么组成的,就这这句话有。
04:43
英文字母空格是不是由他们组成的对吧?他把这些个东西按照固定的格式,按照定的长度进行一个编码,比方说在这里面我认为I啊,它就行,I给它编码时,000101010啊,编码成这样的一个数字,那么你在传输的时候,我只传这种东西,因为计算机只有这种东西,他把这东西传过去,传过去之后那边拿着一个相同的密码本干嘛呢?按照这个顺序啊,0010101啊,这个东西翻译一下是什么字,是I,把I再显示出来,明白啥意思吧,说白了,它底边存的都是零幺,我们在每写一个字,听啊,我们写的每一个东西,比方说我写一个今晚,今天晚上是吧,五色的老婆不在家,就这么句话,就这么一句话,这句话到了计算机里面。其实。
05:44
就变成了一坨零幺,一坨零幺,那么这坨零幺听好,它不能随随便便的就是一坨零幺,比方说你咔1010101110101,这么咔咔一顿拍一顿拍,拍完了之后,你是不是得有办法给它解开是吧?你是很简单,我就把这些东西咔拿过来给它变成这样啊,变成这个零幺这个形式存在计算机里面可以,但是你存进去之后,你是不是还得有用相同的办法再把它变回来,如果你用的这个办法不对路子。
06:17
不对路子,那是不是就解释不出来了,是不是解释出来,比方说啊,举个例子,我把这句话啊,假如编码成这么长的东西,比方说今天啊,这俩字两个。每两位假如啊,每两位是一个字,假如每两位是一个字,那么在我这是每两位是一个字,然后我把这颗零幺发给大哥,大洋哥那边接收到这坨010101之后,大洋哥按三位为一组进行一个解析,这样一解析是不是就乱了,兄弟们是不是就乱了,所以不同的这个编码的这个效果不同编码的这个结果,你用什么编的码,你就用什么干嘛解码,能懂我好意思吧,你用什么编程码就要用什么来解码,那么编码大概有哪几种啊?大概有哪几种?第一种叫最早的计算机编码,最早的计算机编码是ask克码,最早的计算机编码是ask克码是这个玩意儿啊,阿斯克玛ascii这个阿斯克码是谁建立的呢?是美国人建的,美国人创建的为啥是美国人创建的呢?
07:31
机,因为这个破玩意是计算机,是美国人发明的,懂吧,这个破东西是美国人发明的,所以美国人当时他在用的时候,他肯定按照美国人的习惯进行编码,那么美国人的习惯,你要想美国人用汉字吗?不用,美国人用韩文吗?不用吧,美国人用什么什么德文俄文那些东西吗?它不用,美国人用什么字,用英文,英文的话,那我想想这里面包含了哪些东西,英文字包含了英文字母,英文字母,英文字母有哪些东西,是不是分成大写小写的对吧?大写字母还有什么小写字母,那美国人就用这点东西吗?美国人用的数字用吧,对吧,那个富兰克林上面是吧,画着一一百是吧,那种东西,所以这里面美国人引用什么呢?数字对吧?美国人用不用标点符用是吧,还得有标点。
08:31
嗯。特殊字符等特殊字符,比方说什么叹号啊,圈啊,井啊,这些东西,这都老美啊,老美用的,咱们今天看的键盘上的这些个文字,在阿网里面都有编码,在阿斯网里面都有编码好了,那么这是最早的美国人创建的这么一个东西,那也就是最早的计算机只支持英文以及部分数字,以及部分标点和特殊字符,能懂我啥意思吧?最早只支道这个最早计算机,你要把中文想扔进去是不可能的,是不可能的,因为它只在美国有,中国那时候还没有啊。然后这是最早的阿斯克玛之后,阿斯克玛有没有问题,有没有问题,什么问题?对于咱们而言,它最大的问题是什么?最大的问题是什么?没有中文这鬼东西,它只能放什么?是不是只能放那个英文的对吧,说白了你在存储或者使用器。
09:32
题的时候,你可以写I have a dream啊,I have a dream,然后呢,我叫什么许三多,那问你后面这个能存吗?能存吗?存不了,存不了为啥呢?为啥呢?这它只有二斯克码,阿斯克码里面没有对应的我教学的这几个任何的一个字吧,是吧,他没有这个编码,所以它只能存英文这个东西,那么就说中文用不了啊,中文用不了,那中文用不了的话,咱现在机器能不能用中文,能用中文,换句话说,咱现在机器用的是阿斯克码吗?不是啊,但是你要知道阿斯克码是万恶之根源,是万恶之根源是计算机的基本基本,所以后面发展的所有的编码都要基于阿斯格码进行扩展,基于阿斯格码进行扩展,阿斯格玛是核心啊,是核心,OK,那么。
10:32
那四个码既然有这么多东西,它能放英文字母,能放数字,能放标点,那么它一共有多少个马位,有多少个马外跳,它一共有128个马位,马位呢?马马位什么是马位呢?就是128种啊,128种不同的排列组合,那么128种的话大概是多少呢?是二的七次方,是二的七次方,也就是说它由七个零一组成,由七个零一组成,七个零一就是一个单位,但是计算机最底层熟悉七,他熟悉几,他熟悉几,他熟悉二四,86 32是不是熟悉这种东西对吧?说白了它对七敏感的不敏感,所以二四个码,听好,它最早的四个码是七位,但是七对计算机而言,它不是很好的一个标。
11:32
对,所以它在此基础上加了一位,加了一位,加了一位,那就变成多少了,二的多少次方,二的八次方,八个零一组成,那原来这七个现在变成八个,但是这八个第八个是为了什么?是为了给计算机留的,对吧?给计算机留的,所以这里面八位里面前面最前那一位都是零,零都是零,它没有用,它没有用啊,都是零,放在这就为了扩充一位,仅此而已,能听懂什么意思吧?啊就这么个东西,然后它现在是八倍,那么计算机里面阿四克码到底有哪些东西这啊有哪些东西,我昨天给你们发的那文档里面是有的。
12:18
那往下拉,往下拉。这看着马在计算机里面阿斯克马这呢阿斯克它呢是全称叫这个玩意,你可以看到前面有个American,看见了吧,一个American,美国的啊,美国的什么标准信息交换代码,那么这个东西它的长度是二的八次方,就256个码位,但是呢,它前面最前面的一位都是零,你可以往下拉,看着兄弟们往下拉,它最前面的一位全部都是零,它根本用不到,他根本用不到啊,所以阿四克码听好,会有一道之前啊有一道这这么一道比试题,他问你阿斯克玛最前面一位是什么?阿斯格玛最前面的一位是什么?叫阿斯格玛最前面一位是啥?零啊是零,记着这么个事,然后剩下的就是阿斯格码的一个整体的编码啊,整体的编码一共128个,一共128个这个表不要去记啊,不要去记,不要闲着没事背阿斯格码去啊。
13:22
没有用啊,没有用,你就记知道它里面有啥就行了,有英文字母,有数字,还有一些个特殊字符啊,就这些玩意,就这玩意,那么他的这些个编码叫他的这些个编码在什么呢?在美国它是可以用的,但是往外一扩展,设出来事出来了,尤其是计算机开始往外进行传播的时候,假如说传到中国,传到中国的话。中国能进去吗?进不去,而且在那个年代,中国人对于英文来说,咋就不说那个时代就现在的你们英文怎也好,太难了,太难了是吧,英文是很很痛苦的一件事情是吧,所以所以你如果竞争机只支持英文的话,你在中国是绝对没办法普及下去的,这个对吧,没法普及下去的,所以他怎么办呢?就开始搞了一新的编码啊,往下拉搞了一个新的编码,这个编码叫啥呢?叫BK,叫GBKGBK叫什么呢?你可把它当成什么呢?当成这个汉语汉汉语拼音,G叫国,国家的国B标标准,国家标准,K叫扩展,叫国家标准扩展码,国家标准扩展码,GDK叫国标码,国标码我们现在用的不再是国标了,但是之前你们用的什么叉P啊,用的那个叫什么。
14:52
啊叫叫叫叫叫WIN7不是叉P之前的么?之前叉P之前九八两千用的都是TDK,用的都是GDK啊用的是这个吧,国标码,那么国标码听好中国的汉字跟老美眉英文哪个多多汉字多对吧?汉英文说白了,每一位就一个字母,一共26个,再乘以二,一共50多个就够了,但是中文这个他就放不下了,中文有多少呢?几万个中文大概几万个字,几万个字你想给他编码,在256位的那阿四个码里面去,能编进去吗?能放得下吗?放你阿四码最多多少位,256个对不对,你九万多个字想往256的位置去挤,挤得下吗?挤挤不下,就好比咱这屋,咱这屋有100个位置,你让你让200个人进这屋,记得来吗?
15:52
进不来,排不下去,排不下去,所以这里面这里面听好对应于二个码中文不行了,不行怎么办呢?就扩展出新的叫GBK,但是GBK如果你依然用二四个码的那个长度是不够的,那怎么办呢?往上加,往上加加怎么加一个字节,加一个字节,一个字节什么概念呢?就是二克码的一倍,二克码的一倍,这里面字节的概念,兄弟们,字节的概念又提出来了,什么是字节呢?一个二四克码就是一个字节,一个二克码就是一个字节,说白了,一个二次码几位八位,那一个字节几位八位,那GPK是两个字节,GPK几位,16位,16位,16位有多少个位置呢?二二的十六次方吧,二的十六次方是多少?来算一下啊算一下。
16:50
零三,对了,这是我们直接去打印二的十六次方走,你看一共有65536个,65530,也就是说在GPK里面一共有六万多个位置供你去使用,供你去使用,但是中文有多少个,就几万个,中文多少个,几万个挺好,中文大概是九万多,九万多,甚至接近10万,这也中文是九万多个字,所以说JDK里面也没有完完全全的把所有的中文都包进来,没有把所有的中文都包进来,但是他把几乎咱们常用的肯定都包进去了,能明白啥意思吧,就说白了,在座各位的名字应该都在这里面啊,应该都在这么,但是有一些特殊的人的那个名字,由于中国人习惯造字,知道吧,喜欢造字,一一不留神。
17:51
就造出个字来,那那个时候叫那个编码里面可能是没有的,可能是没有的,就好比之前你们有没有人了解过明史,明朝在旁边,明朝的皇帝的名字里面,名字里面是金木水火土作偏旁,金木水火土作品旁五行嘛,对吧,老古人都喜欢这个东西,那么那个时候皇亲国戚真正的正宗就是朱元璋那一脉,那一脉正宗那帮人肯定金木水火土先刻着能用的字去用,但是对于旁系而言,旁系而言,他们必须得用金木水火土,但是所有的字都被皇家占完了,他怎么办?他只能自己造字,他只能自己造字,所以到现在很多皇帝的名字你是没办法输到计算机里面去的,能懂啥意思吧,他自己胡乱造啊,胡乱造,所以中国字很多,但是呢,不是所有东西都能扔到计算机里的,所以他把常用的都编进了,都编进来了,这是JDK。
18:51
国标码啊,国标码,那么国标码里面听啊,国标码里面是我们之前所经常使用的一个东西,国标码你通过这个名也能听出来是给谁用的,中国中国这东西是谁做的,中国中国它是中国北大方正做的,北大方正做的他们是专门成立一个组织专门做这个事,北大方正提过吧,方正方正以前经常等噔噔做方正是吧那个东西,所以这种它是中国人做的,所以这里面你琢磨琢磨里面会不会有俄文,这个德文不会对吧?换句话说,这里面也就放了一些中国人常用的东西,你中国人写的东西,你不是把这些东西拿到什么,拿到德国,拿到国,拿到什么啊,非洲啊,拿到比利时,拿到那种国家去用不了,为啥用不了。
19:44
没有,那用不了,你那是不是只支持中文啊,是不是只持中文?第二,这里面其实不单单中文,其实GPK里面还是包含了一些韩文和日文的,包含了一些韩文和日文的,因为韩文日文很少啊,尤其是日文天下门,天下文欧了啊就欧了,所以这种东西听好,你如果把它拿到中东欧、北欧去用的话,也是用不了的,也是用不了。换句话说,我现在写完的一个程序,在我GBK里面写好的,中文写好的这些东西你拿到欧洲去,你这个程序是跑不起来的。
20:18
对不对,对不对,领导之间是没办法通信的,因为你这边用的是GPK,人家用的是人家类东西,对吧,所以没办法通信,怎么办呢?GBK的麻烦,或者说是各国之间用的自己的编码就不合适了,就不合适了,中国用的是GBK,台湾用的是大五码,大五码big five啊,大五码各个国家都不一样,都不一样,就导致了全世界每个国家都有自己的编码,搞来搞去越来越乱,越来越乱,然后对吧,对老美,老美又受不了了,老美又受不了了,国标码的弊端只能中国用啊,日本有一些文字能用,但是大部分的是他自己本国一些东西,特有东西可能就用不了,然后国标马就不能满足我们的使用,然后又提出了一个什么呢,叫无岸国马,无万国马,听他这个名字屌不屌,这个名字目的是啥?说他把所你既然中国有自己的台湾,有台湾的日本日本的对吧,我刚是把。
21:18
那这些玩意全收编了,都跑我这来,都用我这个,我这个哪都用哪都用万国码,通用万国码,那么UN内O的就产生了unio的叫万国码,叫万国码unicode一开始设计的是什么呢?是两个,呃,每个字符俩字节,一开始啊,它是每个字符俩字节,俩字节的话最多多少个,咱们刚才算了65536,六万六五三六,一共六万多个,但是够用吗?不够,说白了,他连中国都放都放不完,中国字都放不完,你还敢生万国码对吧?一国就给你干死了对吧?所以呢,UN内扣的说啊,这个中国九万多个字不够,不够怎么办呢?我再上扩,我再往上扩那吧,那怎么扩呢?肯定是以倍数的形式往上增,听好啊,以倍数的形式往上增什么呢?翻一倍,原来两个字节翻一倍,几个字节?四字多少倍?
22:18
四二三十加二次不是多,多少位多少位,32位,三二位原来不是最早阿码几倍八位,然后呢,GBK呢,十十六位,然后呢,用扣子呢,32位,把以以倍数的形式往上增,那么以倍数形式往上增到32倍的unode有多少个呢?大概是40多亿,40多亿个位置啊,40多亿个位置,这个时候对于中国的汉字而言,够不够,你才九万多个,我知道40多亿个位置随便来是吧,随便来,但是据统计,据统计全世界所有的国家的文字和符号信息加在一起大概是23万多,大概是23万多,所以你会发现unicode开了多少空间,40多亿,你一共多少个,一共跳个20多万对不对,你就20多万,你放40多亿是不是有点。
23:18
有点有点过了对吧,有点过了浪费,所以unicode它的好处是它可以编码所有的国家的文字和信息,它的缺点什么,浪费空间,浪的空间,浪费空间啊,这是unicode的一个缺点,然后unicode既然它浪费,浪费怎么玩呢?我就给你削减啊,削减怎么削呢?削成这个东西。学生,这个东西叫UTF杠八,UTF杠八还有什么呢?UTF,杠16 UT-32都有啊,都有那么简单说一下UTF它什么意思?它是可变长度的UN扣的,可变长度unit扣的,说白了UTF编码就是unico的编码,这能听懂吧,就是它UN扣的。然后unicode的问题什么呢?是长,是浪费资源,浪费空间,而UTF是在UNI扣的基础上做了一个转换,转换完之后它比较省,它比较省,省什么呢?看这它的长度,看后面这杠八,杠16,还有杠32,表示的是最小字节占多少呢?占八位,占16位,占32位,占32位,然后UTF8里面,这样UTF8里面对于中文英文以及。
24:43
欧洲文字进行了重新的编排,重新的编排给每个东西发啊,放在不同的码区码位上啊,这个一会儿再说,具体是怎么放的好了,这UTL8它里面是个万国码,它能放我们大部分的这个文字,还既然第一天第一天我让你们写程序的时候,我告诉你们了,在这个no派加加。
25:07
这合适,我让你们选个UTL8,还有印象吧,是吧?然后有的同学问我后面什么无报,我这块没有无,只有UTL8。有没有这样的,有吧,现大部分人都是这样的,这东西你不用管,听好啊,后面的鲍你不要管这个鲍姆要说起来那就就又是又是很长时间了,那这前面UTF8就是这么来的,上面还有一个an SI,看见它了吗?看上面了吧,那个an SI听好了,它就是GBK,它就是GBK啊这个一个把打成当成国标码来用,当成国标码码来用,然后下面这些个字母集nsi国标,然后UTF8 UTL8下面有个UCS杠二,UC杠二,这是UN扣的的二的那个标准啊二的标准,什么叫二的标准呢?就是这个。
26:03
就是就是就是。那后面呢?不是就在这就的对这的UN内扣的最早是几个字节,两个字节,这就UCS2 uc2,然后扩充,扩充成UCS4,就是咱们现在用的用那个啊现在用的好了,这是简单的给大家去介绍一下,然后接下来咱们去具体的说一下它们的位数,听好啊求醒一下,听一下,第一最早的计算机编码是二次个码,二次个码占几位,八位占八位,那么它是一个字节,它是一个字节,二四个码啊一个字节,然后二四个码放不了中文,放不了中文的话就来了新的什么GBK啊GBK这是国标嘛,GBK呢,听好在GBK的发展上面啊,其实有很多,最早叫GB叫国标码,然后GB2312对国标码进行扩充,然后最后才是GBK,我们现在能见到的。
27:07
就GBK,然后GBK国标码它是多少位,16位,为啥16位,那16位,因为你用八位够吗?八位多少种,256种知道吧,256种情况就中国人而言,简直就是扯淡啊,简直就是扯淡,所以他国标马是16位,那么它几个字节呢?两个字节,两个字节,所以在很多书上,中文又叫做双字,字符又叫做双字节,字符就在这来了,就在这来的啊,然后再往下走,再往下走,第三个这国标马只能用中文,中文不够了,怎么玩呢?来人万国马,牛的万国码,这时候万国码人上来,万国码最早听好了啊,最早他没有考虑中国,所以它最早是UCS2,它是多少?
28:07
所以呢,16位三,哎,Sorry,是个字节,它是两个字节,然后往下走,中文一上来升级成谁了,UCS杠四,UCS杠四它是多少位,32位,32位它是多少字节,四个字节,所以记住了,咱们现在用的unicode是UCS 32位四个字节,四个字节啊,然后再往下走,说unicode它的问题是什么呢?是浪费,听好看它浪费在哪?这个要会分析,首先咱们从二次码开始,二次码想存个字母A,我们去找一下它的编码。所有的编码,字母A这儿呢,这儿呢,这儿呢,是这个吧,来,我把它拿过来,这是字母A在阿斯克码的编码。
29:01
来字母A是这样,那么在二四格码里面长这样,兄弟们,AC22,然后你是不是要开始升级成什么GPKGPK成几位几位,16位,16位怎么写,16位A是不是还得是A,你不能把A变成别的,对不对,所以这是原来的二四个码还这样,然后前面你要补什么,补一个12345678,是不补八个零啊对吧?补完八个零这才变成GBK,首先从GBK这你仔细看前面是不是就多了一堆零了,是不是有问题了,对吧?然后往下走,这GBK其实还好,就浪费这几个,往下再发展该谁的unode unode它是几位?咱们现在用的多少位,32位,32位的话,你要把字母A拿过来,这是几位?对八位,八位的话,这U内扣的扩长呗,扩充成32位,你要补一个。
30:02
两个三个是不是这样,是不是这样对吧,你看一个字母A,原来就这么点,在GBK里面变这么长,然后带了U内扣子里面好家伙这么长,但是你看unode里面大部分是什么玩意儿,浪费不是不是浪费,所以这unode它会很浪费,它会很浪费,所以你在传输的时候,由于数据传输的时候,你不可能传这种东西,你明白什么意思吧,不能传,这因为你传这个东西要耗费大量的网络的这个这个这个流量,比方说你随便写个文本啊,ABCDEF啊,原本你只传个这个就够了,但现在你每个字母是不是传这么多东西是吧?是原来的几倍,四倍,是原来的几倍是不是原来的四倍是吧?是原来的四倍,所以这时候就很浪费,很浪费,你想想你看一个电影,或者你下一个,呃,文档,原本原本是1GB的东西,你要下很长时间,一下瞬间变成几的刺激是吧。
31:02
打折很浪费,所以这时候用没扣不成了,不成怎么办呢?它既然前面都是零,那怎么办呢?把零干掉是不是不影响原来的数据,是这样吧,比方说你看他019和幺九在数据上是不是一样的是吧,所以他就把前面零干掉,干掉的话选谁呢?叫UTF就出来了,UTF杠八,这个是我们必须要了解的,UTF8是可变长度的,U内扣的可变长度怎么玩呢?他把这个东西拿过来就完了。就完了,前面的这些个零干嘛的,砍掉就可以,砍掉就可以了,明白啥意思吧,然后听好这是英文,英文,那么我们来观察一下英文在在UTL8里面占几位,八位好八个贝八位那么几个字节,一个字节好一个字节,然后往下走,对应于中英文而言是这样子,但是对应于欧洲的文字,听好啊,八位的话是不是基本上就是阿斯克马那些东西是吧,你有点扩展的话,就欧洲那那些个文字,那些个文字你就不能占用阿斯格玛的位置,所以欧洲的文字要往上扩展一下,对于欧洲文字而言,它是16位两个字节,挺好,到现在还没有说呢,到现在还没有说呢,因为中文用两位不够,两位不够对吧,怎么办呢?往上接着涨两。
32:37
不够怎么办?有人打扩四位,扩四位的话,你是不是也有一大堆浪费,为什么一大堆浪费三多了多,因为四位是多少,40多亿了吧,对吧,40多亿,40多亿中文一共多少个九万多往死里撑,我给你撑到10万够了吧,充到10万,充到10万的话,你10万个数想换到40亿空间里面去,是不是很浪费对吧,很浪费怎么办呢?那他就想了,你两个不够,四个还多,那怎么玩啊,三个,所以记得唯一的啊,有点有点有点绕的,中文占的是24位,24个贝,它是三个字节,中文在UTF8里面是三个字节,是三个字节,这样的话一排啊一排,哎,你这个怎么讲呢?这个这个空间就相对来说都利用起来了啊,都利用起来了,那么这里面。
33:37
听了啊,这是一种说法,还有一种说法不是这样的啊,还有一种说法不这样的,当年在排编码的时候,你想这是990或者九一,就九几年,就九几年在国外刚出生,那时候编的码,你想那个时候他是按照什么编的呢?他是按照国历,国家的这个实力来编排,来来编排的,比方说英美啊,英美啊,英美这国家比较强大,这些排在前面,然后欧洲,欧洲什么德意志什么这这些国家比较牛逼啊,他才这个位置,然后中文啊,中国当年九几年刚改革开放,对不对,那个时候还计划生育呢,是吧,那时候还计划生育呢,所以那个时候他这个中国比较相镇,那个年代比较落后啊,排的比较后面,所以这个只是一种说法啊,只是网上的一种说法,具体的这个咱真没有考究,因为对于国际化组织而言,一般不会出这种问题啊。但是有有些。
34:37
确实反正揣测了一下这个东西啊,好了,这是咱们说的这个编码的问题,第要最早的阿码里面有英文大写字母,小写字母,数字,标点符号啊,特殊符号,它占多少位呢?它占八位,最早的阿玛占最最早是七位,然后加了一遍变成八位,八位是一个字节,一个字节,一个字节是什么概念,兄弟们。
35:01
字节单位怎么写?叫BY,叫BY,最早一个字节就是一个bit,然后到了JBK里面,JBK里面升级了,升级成国标码,国标码多少呢?16位,它是多少个?两个字节啊,两个字节unicode unicode是什么呢?万国码,因为GBK只能表示中文,而全世界每个国家都有一个不同的编码呢,UN扣的,把这些编码统一汇总,汇总和UN扣的啊,UN扣的把这些东西整理完之后形成新的,它占32个四个字节,听好我们记得或者后面考的都用这个啊,都用这个,然后往下走,这个就不要了,这个不要了,对应于往下再发展,就发展成今天的这个UTF8 UTF8是我们以后写程序你要存储的什么呢?固定基本上就是固定定死了的一个编码格式,一个编码格式,它是里面有英文,英文是八个字节啊八。
36:02
背一个字节,欧洲文字16位两个字节,中文二14位三个字节啊,三个字,这个你必须要记住,要这个你要记住啊,好了,这就是编码的问题啊,编码的问题,这个编码咱们是第一次说,后面还要再说一次,后面还要再说一次啊,这个东西没那么容易啊,没那么先了解一下,有阿四克码,有GDK,有UTL8,有U内扣的,先记这么四个玩意儿就可以了啊,记这么四个玩意儿,然后编码这东西啊,编码这东西它呢,咱们从这块可以看到,有这个bit的话,往上再升,听好往上再升,这个是我们计算机存储数据的最小的单元,不是单位,最小单位是贝,就这玩意吗?叫bit bit什么意思?比特,比特有什么?就是你的那个二进制不是零幺吗?对吧,单独拿出来一个零。
37:02
或者一个一,这是一个贝塔,这是一个贝,一个贝塔能存几个数?一个数要么零,要么一,知道吧,能存一个数,这是贝塔,那么贝多少个贝能转换成BA,八个你看八个贝,记住八个贝转换成是一个BA,然后看着往下要说一下计算机的存储单位了,在BAT再往上升,听好1000个BA啊,不是1000个吧,1024个被称为什么呢?一个KB 1KB到了这是不是就熟了,到了这是不是熟,总能看见到我一个我认识的是吧,KB,这是1KB 1KB是1024个bit 1024个,然后再往上升,1024个KB是啥?一个MB啊,一个一兆啊,一兆1024兆是。
38:02
G以来124GB等于什么?TB这时候也是我们知道的,来1024GB是什么?不知道了,不知道了是吧,你们现在买硬盘最大就到这了是吧?来我这有。我这有啊,10024TB等于1PB1PB啊,你们未来可能会接触到一个东西叫海量数据,海量数据分析师,他每天面对的就是PB级的数据,PP级数据,比道什么PP级数据不就是你现在买硬盘,一块硬盘1T1T的硬盘,你买1024块放在一起,这些个数据装满了,这是1PB,这是1PB,然后这1PB之后,他从这1B的数据里面去分析,分析出来今天怎么怎么样,怎么么样,明白吧,啊,非常大啊,非常大,难度系数也比较高啊,这个你具具体琢磨啊,反正很大很大,然后1024这是PB,我写错了,1024PB等于是1EB 1024eb等于1ZB 1024ZB等于EYB 1024YB等于1NB,最后到底到目前为止我们能够接触到的。我接触。
39:22
到最大的也就是PB了,就是PB了,我见过PB硬盘是这么的,电里面是插电的,插电的那种,插个电,供电,有专门里面带电源的,就像咱电电脑这玩意一样,里面带电源的,插上电,然后供电,还有散热,乱七七糟的集结的一块玩,那不知道里面不知道,就我们外面是是一个大盒子,一个大盒子里面大概有两个,不是两个是四个,四个U口,四个U口往外连的那个是干嘛用的,你们知道录制视频,这个视频是很占地方的,知道吧,你们知道电视台吗?电视台的录像机知道吧,那个录像机往那一摆,在那录这那个录大概五分钟,五分钟视频大概可能就要10G左右,就五分钟视频大概10G左右,所。
40:22
那个非常非常赞,非常常赞,我当年是我给人录课,录课的时候,然后他拿那玩意儿录,录完之后,录完之后我说你给我一份吧,他说等我们处理完,我说不用处理,你就给我就行了,对吧,他一打开,我一看那硬盘的大小,我操,我说算了算了算了,不聊了,不聊了,你整完了,你告诉我那什么处理完的,压缩完的,到我这儿的还不是那呃,是高清的,但是不是那个母代了,已经缩减了大概1/10以上了,已经已经缩起来很多很多了,但还得接近这几十个G,是打不住的,是打不住的啊,在我硬盘里面有特别特别大,特别特别大,所以而且时间还不长,不是很长,你一个视频就呃,多的20分钟,少的就十分钟。
41:11
就这样,就这种视频就都录录录那么多啊,特别大,所以你们那时候能接触到这种PP级硬盘,PP硬盘还有就什么呢?就不是一块硬盘了,就很多硬盘连在一起,连在一起,然后呢,去处理海量数据啊,比方说微博,你琢磨琢磨,微博每天那么多人在那喷,对吧,天天那么多人在那喷,喷来喷去,它最终得存起来吧,这些数据,对吧,无论是好的坏的,还有斗图的,对吧,你这个搂起来你想多大呀,对吧?这一块硬盘搞得定吗?搞不定N多块硬盘知道吧?好了,这是PB啊对,说存储想起来了,有一个公司叫谷歌,知道吧,谷歌电脑是没硬盘的。对,谷歌那么牛逼,那么多数据,谷歌数据肯定比微博多,对吧,但是他没用百率用百分他没有感,不就谷歌嘛,就就谷歌搜索知道吧,搜索搜索运擎它的机器是没硬盘的,他它的机器里面只有内存和CPU,只有内存和CPU它也没有什么,这个机箱子电源风扇没有屏空了,对啊,就是一个板子,你看得到的就是一个板子,咱们建的内存是不是这么插距的,它那个它那个内存是是焊进去的,直接焊进就是一个板子,它的机器是放在集装箱里面的,那共用的一个组结不是不是吗?不是,他的机器是放在集装箱里面的,比方说这宅,这屋子是个集装箱,那么整个集装箱它会给它分成很多个位置,跟机房一样很多个位置,然后每个位置放一个板子,放个主板,然后供电,统一进行供电,就说白了,它供电不是给某个板的供电,是给这集装箱供。
42:55
集中线供电板子不有电了吗?改上电之后,散热也是集中散热,什么都不用管,你只要管CPU个CPU有有有个板子,就是把这些东西连起来,有个内存就够了,他所有的数据全是动态存的,全是动态存,那有人问他如果停电了怎么办,他电费没了怎么办,对吧?他的那个集装箱就是一个集装箱,它有很多个集装箱放在一起,然后呢,在那边上建水电站。
43:24
他的电是他自己的,明白啥意思吗?他的电是他自己的,他想怎么玩怎么玩,想怎么用怎么用,他如果真的断了,听好啊,对于计算机而言,这种容灾肯定是有的,就是它真的宕机了,整个这个电都断了怎么办呢?它全世界会有N多个机房,特别多,多个机房就说白了,这块挂了那就挂了,等你重启的时候,我别的机器大话,再给你输出数据就完了,他一份数据不是放在一台机器上的。不是放在一台机上的,是很多个机咔发散发出去,当你需要的时候,啪统一的往里面扔,再往里面扔,它没有硬盘,因为硬盘耗电还慢,硬盘耗电而且还慢,所以说直接就干脆我就不用用盘,我全是内存,我所有机器不关机就可以了。
44:14
你不可能全球所有的机房全挂吧,是吧,这个几率太低了,它内存多大,存多没多大,它的内存并没有你想象那么大,动内存大的是百度,假如说你不往硬盘里存,存硬内存里大概肯定是不变,内存那么大,另放个视频,一个视频放谷歌,放视频吗?法搜搜索谷歌搜,你搜索出来的都是链接,兄弟搜索引擎,它是搜索引擎,你到东西全是链接,你点进去才能进到对方网站,知道吧,就好比你现在是个网站,我搜我是谷歌,你来搜我,我只能告诉你这块有这个网站,我把链接给你,你点进去看的是他,知道吧,所以它不放这个东西,它不放存储,也就没那么大,对,没那么大,它存储很小的,它存储很小的啊,好,这是较著名的。
45:14
公司,还有国内的搜索引擎百度,大家见过吧?百度啊,谷歌的起家算靠什么?
我来说两句