在Windows平台下,进入DOS窗口,输入:chcp ,可以得到操作系统的代码页信息,你可以从控制面板的语言选项中查看代码页对应的详细的字符集信息。...例如:我的活动代码页为:936,所以它对应的编码格式为GBK。 ? 代码页是字符集编码的别名,也有人称"内码表"。早期,代码页是IBM称呼电脑BIOS本身支持的字符集编码的名称。...图形操作系统解决了此问题,图形操作系统使用自己字符呈现引擎可以支持很多不同的字符集编码。早期IBM和微软内部使用特别数字来标记这些编码,其实大多的这些编码已经有自己的名称了。...GB2312)现在是GBK了,GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准。...西里尔文(KOI8-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594 波罗的海文
这种攻击产生的原因是国际化域名IDNs(Internationalized Domain Names)支持多语种域名,而其中一些非拉丁字符语种的字母与拉丁字符非常相似,字面看很难区分。...关于同形异义字钓鱼攻击的相关技术,freebuf上之前已有文章介绍,这里就不再过多介绍这个技术,不清楚可以自行搜索. 0×01 腾讯、京东、支付宝、微博、淘宝已面临同形异义字钓鱼攻击 真有这么多网站面临威胁...上图是西里尔字母表,我们可以发现有不少字母与拉丁字母相识,这就是为什么用西里尔字母来进行混淆的原因 浏览器会通过Punycode来编码非拉丁字符的域名,编码后就可以避免产生混淆,但发现如果域名的一个字段里所有字符都是同一种语言...不是所有的英文字母都有与之相似对应的西里尔字母 我尝试了一些可以用西里尔字母拼出的国内知名网站 ԚԚ.com 转码后 xn--x7aa.com (腾讯) ԛԛ.com 转码后...我们这里不管google的这个漏洞有没有修复,换一个攻击思路: 一般内嵌手机APP的webview是没有地址栏的,所以转码也好,没转码也好,用户是看不到网址的 这里选了两个手机端最常见的即时聊天APP:
@TOC字符串简介在计算机编程中,字符串是由字符组成的字节序列。在Python中,字符串是表示文本数据的数据类型,由一系列 Unicode 字符组成。...字符串可以包含字母、数字、标点符号、空格以及其他特殊字符。实际工作当中,接触最多的可能就是字符串了。字符串也是Python中最基本的类型,Python中的字符串类型可以使用引号括起来。...字符串查找在 Python 中,字符串查找是非常基础的功能,有几种常用的方法可以用来查找字符串中的子串或特定字符:使用 in 关键字使用 in 关键字。...字符串替换在一些编程当中,字符串替换是非常常见的操作,在Python中,可以使用不同的方法来替换字符串中的特定子串或字符,下面是一些常用的方法。...使用字符串的 join() 方法join() 方法可以将一个可迭代对象中的元素连接成一个新的字符串。它的工作原理是在指定的分隔符上使用调用该方法的字符串作为粘合剂,将可迭代对象中的每个元素连接起来。
编码从故事说起 关于计算机的字符编码,很多人都是一知半解的,笔者遇到过做了几年开发的程序员,还是说不清字符编码是什么,乱码又是怎么回事,实际上笔者早期也说不清个所以然,后来有一次做一个自己的app,期初用...其实这一点我们在谍战剧中也经常见到,假设地下党约定用新华字典做密码,密文是110页第3行第5个字,结果你用康熙字典去解码,翻到110页第2行第5个字,那肯定就乱码了。...其实这个也很好理解,这就像我们一开始讲的小明小红的故事一样,我们只需要给每个字符一个编号,计算机不是只能存数字吗,那就把这个编号存起来,当我们需要显示的时候,再去解码,让显示器把这个编号转换成对应的字符显示到屏幕上就行了...在小明小红的故事中,编码的目的是为了加密,不让其他人知道密文的意思,而计算机编码的目的则是因为它只能保存数字。...在Mac OS和Linux系统上,UTF-8也是默认的编码方式。因此,在Linux上写的文件,传到Windows系统上直接使用记事本打开,中文就会乱码,Windows默认编码是GBK。
完整的形式是这样的: 所以,平时看惯了中英文的我们,需要改变一下思路了。 世界上的文字,并不全是规规整整横向排列的格子,也存在像泰文这种变形金刚组合式的文字。...事实上,这样的设计,是为了解决一个问题:人与机器的矛盾。 首先是存储的矛盾。 如果把每个组合好的泰文用一个编码来表示,那么至少需要44×21×4=3696个编码(实际上可能要比这还多)。...比如,这个表情:(;´༎ຶД༎ຶ`) 里面有眼睛流泪的一个字符:༎ຶ 它是什么语言呢? 事实上,它并不属于世界上任何一种语言!眼睛部分是老挝文,泪水部分属于藏文。...\u4e86\u0488 其中0488就是҈这个字符的编码,它是一个组合用的西里尔文百千符号。...我们查看西里尔文计数法的wiki,可以看到它只有配合西里尔数字时,才能展示正常: 至于你把它跟其他语言组合在一起时,我们要么看到错位,要么看到分离的展示。而且国际上并没有一个组织,去规定要怎么展示。
所以,平时看惯了中英文的我们,需要改变一下思路了。 世界上的文字,并不全是规规整整横向排列的格子,也存在像泰文这种变形金刚组合式的文字。...事实上,这样的设计,是为了解决一个问题:人与机器的矛盾。 首先是存储的矛盾。 如果把每个组合好的泰文用一个编码来表示,那么至少需要44×21×4=3696个编码(实际上可能要比这还多)。...比如,这个表情:(;´༎ຶД༎ຶ`) 里面有眼睛流泪的一个字符:༎ຶ 它是什么语言呢? 事实上,它并不属于世界上任何一种语言!眼睛部分是老挝文,泪水部分属于藏文。...\u6c57\u0488\u4e86\u0488 其中0488就是҈这个字符的编码,它是一个组合用的西里尔文百千符号。...我们查看西里尔文计数法的wiki,可以看到它只有配合西里尔数字时,才能展示正常: ? 至于你把它跟其他语言组合在一起时,我们要么看到错位,要么看到分离的展示。
完整的形式是这样的: 所以,平时看惯了中英文的我们,需要改变一下思路了。 世界上的文字,并不全是规规整整横向排列的格子,也存在像泰文这种变形金刚组合式的文字。...如果把每个组合好的泰文用一个编码来表示,那么至少需要44×21×4=3696个编码(实际上可能要比这还多)。...比如,这个表情:(;´༎ຶД༎ຶ`) 里面有眼睛流泪的一个字符: ༎ຶ 它是什么语言呢? 事实上,它并不属于世界上任何一种语言!眼睛部分是老挝文,泪水部分属于藏文。...\u4e86\u0488 其中 0488就是 ҈这个字符的编码,它是一个组合用的西里尔文百千符号。...我们查看西里尔文计数法的wiki,可以看到它只有配合西里尔数字时,才能展示正常 至于你把它跟其他语言组合在一起时,我们要么看到错位,要么看到分离的展示。而且国际上并没有一个组织,去规定要怎么展示。
给定两个长度相同的字符串 aa 和字符串 bb。...如果在某个位置 ii 上,满足字符串 aa 上的字符 a[i]a[i] 和字符串 bb 上的字符 b[i]b[i] 相同,那么这个位置上的字符就是匹配的。...如果两个字符串的匹配位置的数量与字符串总长度的比值大于或等于 kk,则称两个字符串是匹配的。 现在请你判断给定的两个字符串是否匹配。...输入格式 第一行包含一个浮点数 kk,第二行包含字符串 aa,第三行包含字符串 bb。 输入的字符串中不包含空格。 输出格式 如果两个字符串匹配,则输出 yes。 否则,输出 no。...数据范围 0≤k≤10≤k≤1, 字符串的长度不超过 100100。
(DOS) 850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫语(拉丁文 II) 855 西里尔文(俄语) 857 土耳其语 860 葡萄牙语 861 冰岛语 862 希伯来文(DOS)...863 加拿大 - 法语 865 日耳曼语 866 俄语 - 西里尔文(DOS) 869 现代希腊语 874 泰文(Windows) 932 日文(Shift-JIS) 936 中国 - 简体中文(GB2312...西欧(Windows) 1253 希腊文(Windows) 1254 土耳其文(Windows) 1255 希伯来文(Windows) 1256 阿拉伯文(Windows) 1257 波罗的海文(Windows...) 1258 越南文(Windows) 20866 西里尔文(KOI8-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594 波罗的海文...(ISO) 28595 西里尔文(ISO) 28596 阿拉伯文(ISO) 28597 希腊文(ISO) 28598 希伯来文(ISO-Visual) 38598 希伯来文(ISO-Logical) 50000
>可以通过使用String类提供的方法来完成对字符串的操作 >String类提供了许多有用的方法,如获得字符串长度,对两个字符串进行比较,连接两个字符串及提取一个字符串中的某一部分 二.字符串长度...=="于equals的区别: (1)"=="判断的是两个字符串对象在内存中的首地址是否相等,即判断是否是同一个字符串对象 (2)equals判断的是两个字符串对象的值是否相等 3.字符串中的忽略大小写...转换字符串中的英文字母为大写 //返回字符串的大写形式 四.字符串的连接 连接字符串的方法又两种:使用"+"运算符和使用String类的concat()方法 1."...,它返回出现第一个匹配字符的位置 (2)如果没有找到匹配,则返回-1 (3)调用时,括号中写明要搜索的字符(或字符串)的名字 2.lastIndexOf()方法: 该方法也是在字符串内搜索某个指定的字符或字符串...,但是它是搜索最后一个出现的字符(或字符串)的位置 3.substring(int index)方法: 该方法用于提取从位置索引开始的字符串部分,调用时括号中写的是要提取的字符串的开始位置,方法的返回值就是要提取的字符串
网站的 URL 地址显示的是苹果官网,网址旁边是安全字样和绿色小锁,表示网站信息基于 https 加密传输,完全没什么问题,然而它就是一个钓鱼网站(演示网站)。 ?...它的原理是这样的:在希腊、西里尔、亚美尼亚这样的国家,他们的网址域名会用到一些“地方语言”,这时网址看起来虽然一样,但是电脑认为不同。...例如: 这里有三个看起来差不多的字符 :a、a、α ,但是第一个是西里尔语里的 a,第二个是英文里的 a、第三个是俄文里的 α (数学题里的阿尔法) 虽然看起来都是 A,但计算机显然把它们当成不同的字符来对待...(注:DNS 即域名解析,通过网站域名来指向网站服务器IP) 为了让 DNS服务器能看懂这些“方言”,许多浏览器用一种叫 punycode 的编码方式, 把一些奇奇怪怪的“地方语言”翻译成网络 DNS服务器能懂的英文字符...不过宅客频道建议,在访问一些重要的网站时,尽量用手动输入网址的方式访问,不要轻易点击超链接,因为你点进去的每一个网站都可能是假的,虽然看起来没问题。
自今年2月起,ZeroFOX威胁研究团队调查了一个Twitter上名为SIREN的大型垃圾邮件色情僵尸网络。...目标网址伪装 一旦目标对象点击链接,该用户就会碰到一系列的重定向,具体过程如下: 1. 用户点击推文上的链接 2....对某个谷歌短网址的点击量统计 ?...我们统计发现,这些“僵尸”Twitter账户的大部分自我声明使用的语言都是俄语(详见下图)。这一点的确值得注意,有12.5%的“僵尸”账户所显示的账户名称都包含与普通俄语相对应的西里尔字母表的字母。...蹩脚的英语、西里尔文以及庞大的基础结构均表明SIREN发起方技术高超,并且来自于欧洲东部地区的可能性很大。该地区已经发现类似SIREN垃圾邮件基础设施的运行踪迹。 ?
事实上,可能你早已见识过了: [图片] 今天我们就来探讨一下这些奇怪的字符。 一、文字可以戴帽子和穿鞋子 提起泰文,很多朋友都会立即想到:萨瓦迪卡(你好)。 但这句话是怎么写的呢?...世界上的文字,并不全是规规整整横向排列的格子,也存在像泰文这种变形金刚组合式的文字。...如果把每个组合好的泰文用一个编码来表示,那么至少需要44×21×4=3696个编码(实际上可能要比这还多)。...简单的说,泰文的每个基本字符对应一个编码,用户在输入法里依次输入多个基本字符进行拼合,最后敲一个特殊的“结束字符”;这时前面输入的基本字符,就拼合成了一个单独的泰文字符,在屏幕中显示。...我们查看西里尔文计数法的wiki,可以看到它只有配合西里尔数字时,才能展示正常: 至于你把它跟其他语言组合在一起时,我们要么看到错位,要么看到分离的展示。而且国际上并没有一个组织,去规定要怎么展示。
上一章介绍了python中的关键字、变量、输入输出、注释、还有数据类型等概念,接下来这篇文章主要介绍python中字符串的相关笔记。文章只按照我自己觉得重点的知识点去列举,不会列举特别细致的点。...字符串定义:成对的单引号或者是成对的双引号、三引号括起来的字符内容。...字符串索引:字符串里面的每个字母都是有索引的,索引也就是每个字符对应的位置,那么索引的顺序有2种: 正序:从左到右索引默认0开始的,最大范围是字符串长度少1 反序:从右到左索引默认-1开始的,最大范围是字符串开头...小博',尝试去改字符串的第一个字符的时候,name[0]='李' ,执行是会报TypeError: 'str' object does not support item assignment错的,说明,...那么,为什么对字符串变量重新赋值又不会报错呢?使用name=‘'xxx' 实际上是指向了一个新的字符串。
---- 前言 重点介绍处理 字符和字符串 的库函数的使用和注意事项 一、函数介绍 1.strlen strlen,是字符串长度的函数 返回类型为 size_t 及无符号整型unsigned int...参数为char *类型的指针 要求字符串的长度,应该将字符串的首地址传过去,所以参数为char* 2.注意事项: strlen返回类型为无符号整型,所以在比较两个字符串长度的时候,要格外注意...结果我们可知,在字符串存储时,斜杠零会自动在字符串的结尾处添加,但若单独存字符的话,是没有斜杠零存储进去的,所以会出现arr2长度为18的情况! ...比较字符串当然不是看字符串的长度!比较的是每一对字符的大小,ASCII码值的大小 第一个例子: 第一对相等'a'= 'a',第二对 'a'字符串2大于字符串1,后面的无需比较。...,要注意的是函数的返回值和参数的使用,以及源字符串和目的字符串的空间大小!
各种字符集之间的关系 ISO8859-1 -西欧字符集 BIG5 -中国台湾的大五码,表示繁体汉字 GB2312 -大陆使用最早,最广的简体中文字符集 GBK -GB2312...的扩展,可以表示繁体中文 GB18030 -最新GBK的扩展,可以表示汉字、维吾汉文、藏文等中华名族字符 Unicode -国际通用字符集 Unicode 正确理解 概要 占用 2 个字节...Unicode 仅仅只是一个字符集,规定了符合对应的二进制代码,至于这个二进制代码如何存储则没有任何规定。它的想法很简单,就是为每个字符规定一个用来表示该字符的数字,仅此而已。...在向磁盘和网络上传送的时候以 UTF-8 编码 占1个字节的:一个utf8数字、一个utf8英文字母 占2个字节的:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码...乱码产生的原因 编码和解码字符集不一样。
上手 Nebula Spark Connector 先决条件:假设下面的程序是在一台有互联网连接的 Linux 机器上运行的,最好是预装了 Docker 和 Docker-Compose。...,这里边我们对前边加载的图: basketballplayer 上做了顶点和边的读操作:分别调用 readVertex 和 readEdges。...请注意,在 GraphX 假定顶点 ID 是数字类型的,因此对于字符串类型的顶点 ID 情况,需要进行实时转换,请参考 Nebula Algorithom 中的例子,了解如何绕过这一问题。...再看看一些细节 这个例子里,我们实际上是用 Exchange 从 CSV 文件这一其中支持的数据源中读取数据写入 NebulaGraph 集群的。...更多的数据源,请参考文档和配置的例子。 关于 Exchange 输出 SST 文件的实践,你可以参考文档和我的旧文 Nebula Exchange SST 2.x实践指南。
6.1 字符的编码方式 6.1.1 编码与字体 在计算机上,我们看到的字符“A”可能长这样: ? 也可能长这样: ?...对于同一个TXT文件中的内容,你在Notepad上选择不同字体时,字符显示的形状不一样。 所以TXT文件中保存的是字符的核心:它的编码值。...而Notepad上显示时,这些字符对应什么样的形状态,这是由字符文件决定的。编码值,字体是两个不一样的东西,比如A的编码值是0x41,但是在屏幕上显示出来时可以使用不同的形状。 什么叫编码?...它可以表示2^16=65536个字符,全世界常用的字符都可以表示了。...对于其中的ASCII字符,在UTF8文件中直接用其ASCII码来表示,比如上图中的0x61表示字符a、0x62表示字符b。
领取专属 10元无门槛券
手把手带您无忧上云