说到多字节字符串与宽字符串,不得不说一下多字节字符与宽字符。多字节字符实际上是由多个字节来表示一个字符,在各个国家和地区采用不同的编码方案,不同编码方案字符码值是不同的,比如常见的中国大陆的GBK和GB18030、台湾同胞的Big5h,以及国际通过的UTF8编码等。宽字符指的是由统一码联盟制定的Unicode编码方案收录的字符,使用4个字节来表示一个字符。关于字符编码可参见博文精述字符编码。
代码编译运行环境:Windows 64bits+VS2017+Debug+Win32
转自:http://blog.csdn.net/lovekatherine/article/details/1868724
在C++的标准库中,std::fstream是个挺好用的文件读写流,操作文件很方便,因为是C++标准库,所以没有其它的环境依赖。在使用fstream过程中,有个打开中文路径文件会失败的问题,自己的代码中一直没处理好,这几天终于有点闲心,把这里改透。涉及很多知识点,也是个遗留已久的问题,特此做个记录。
宽字符函数 普通C 函数描述 iswalnum() isalnum() 测试字符是否为数字或字母 iswalpha() isalpha() 测试字符是否是字母 iswcntrl() iscntrl() 测试字符是否是控制符 iswdigit() isdigit() 测试字符是否为数字 iswgraph() isgraph() 测试字符是否是可见字符 iswlower() islower() 测试字符是否是小写字符 iswprint() isprint() 测试字符是否是可打印字符 iswpunct() ispunct() 测试字符是否是标点符号 iswspace() isspace() 测试字符是否是空白符号 iswupper() isupper() 测试字符是否是大写字符 iswxdigit() isxdigit() 测试字符是否是十六进制的数字
字符分类: 宽字符函数普通C函数描述 iswalnum() isalnum() 测试字符是否为数字或字母 iswalpha() isalpha() 测试字符是否是字母 iswcntrl() iscntrl() 测试字符是否是控制符 iswdigit() isdigit() 测试字符是否为数字 iswgraph() isgraph() 测试字符是否是可见字符 iswlower() islower() 测试字符是否是小写字符 iswprint() isprint() 测试字符是否是可打印字符 iswpunct() ispunct() 测试字符是否是标点符号 iswspace() isspace() 测试字符是否是空白符号 iswupper() isupper() 测试字符是否是大写字符 iswxdigit() isxdigit()测试字符是否是十六进制的数字
宽字符函数 普通C函数 描述 iswalnum() isalnum() 测试字符是否为数字或字母 iswalpha() isalpha() 测试字符是否是字母 iswcntrl() iscntrl() 测试字符是否是控制符 iswdigit() isdigit() 测试字符是否为数字 iswgraph() isgraph() 测试字符是否是可见字符 iswlower() islower() 测试字符是否是小写字符 iswprint() isprint() 测试字符是否是可打印字符 iswpunct() ispunct() 测试字符是否是标点符号 iswspace() isspace() 测试字符是否是空白符号 iswupper() isupper() 测试字符是否是大写字符 iswxdigit() isxdigit() 测试字符是否是十六进制的数字
摘自维基百科 http://zh.wikipedia.org/wiki/Ctype.h
先说下窄字符char,这个大部分读者应该很清楚,char类型的变量占一个字节(byte)(也就是8个bit(比特)),能表示256个字符,那char的范围有两种
在 MySQL 的使用过程中,有时候一个小小的字符也能带来大麻烦,在未发现真相时,以为这问题是见了鬼了,而发现真相时,却没想到是一个字符带来的问题,零宽字符像个幽灵隐藏在 IT 行业的各个方面,今天分享一个关于 MySQL 中“消失的表”的复现案例。
在做jsonp传递的时候遇到一个问题,当有特殊字符或中文的时候就会导致数据错误或者是乱码,刚开始有js的编码和解码和正则,都比较麻烦,现在找到了一种合适的解决方案,宽字符编码,js端会自动解析,能处理以上问题,以下是自己封装的通用类。 using System; using System.Text; /// /// author:Stone_W /// date:2010.12.23 /// desc:宽字符编码和解码 /// public class Cod
printf()是C语言标准库函数,用于将格式化后的字符串输出到标准输出。标准输出,即标准输出文件,对应终端的屏幕。printf()申明于头文件stdio.h。
标题里的“短”字加了引号,只是因为它看起来短,实际并不短,因为字节还是在的,在 unicode 里有一种神奇的字符叫 零宽空白,它的特点是字型的显示宽度为 0,无论堆了多少个零宽字符,你都看不见它。
经常在写代码的时候需要处理宽字符,ASCII 字符,在代码中看到 wchar、char 等等。一般都是处理一个方法的时候发现需要的是某字符串,然后这边有什么字符串,之后查一个转换方法。还有对于 Unicode 、ANSI 这些不太分得清,所以花了一点时间看了一看。做个小结。
最近工作一直在和csv打交道,但是一直没有找到一个方便终端查看csv的工具。用过python的csvkit提供的csvlook,但是只支持单宽字符,文件包含CJK字符或者emoji的时候排版很乱,文件比较大的时候需要等很久才能打开,频繁使用的时候不是很顺手。
上周的时候,朋友圈的直升飞机不知道为什么就火了,很多朋友开着各种花式飞机带着起飞。
在freebuf上莫名地被喷,可能是因为被喷让人气上来了,最后得到的金币比前一篇文章更多。塞翁失马,焉知非福?
上一篇我们学习了Windows编程的文本及字体输出,在以上几篇的实例中也出现了一些带有“TEXT”的Windows宏定义,有朋友留言想了解一些ANSI和Unicode编程方面的内容,本章就来了解和学习一些Windows下关于ANSI和Unicode方面的编程基础。 计算机最早在美国诞生,所以最开始都是以英语为作为交互语言,由于只有26个字母,用一个字节(范围-128 ~ 127)表示,这个范围足够表示26个因为字符和一些常用的控制字符,这个就是ASCII编码。因此最早的各种程序设计语言以及使用的字符串都用字
seq(Sequence) 用于按照指定步长产生从起始数到结束数之间的所有整数。起始数和步长可使用默认值 1,结束数必须指定。
根本原因是程序使用了标准函数,而在你的机器上,没有这个标准函数对应的动态库实现,如果想要顺利运行则需要到官方网站下载对应版本的动态库安装即可
在Win32编程的时候,会常常遇到各种各样的字符(串)数据类型,比如CHAR、LPSTR、PCTSTR、LPTSTR等等,这些种类繁多,又很相似的数据类型怎么才能分清楚,他们跟C语言中的char又有什么关系呢? 首先在C语言下的基本字符串类型是char,这个字符串类型与ANSI规定的是一样的。一个字节的低7位用于存放ASCII码,多个字符以空\0x00结尾即表示一个字符串。但是由于符号太多,根本不能用256字符来全部概括,所以出现多字节编码的方式,比如Unicode、UTF、BIG5等等。比如W
VS集成开发环境,字符集选择“使用多字节字符集”和“使用Unicode字符集”的直接区别就是:编译器是否增加了宏定义——UNICODE。当选择“使用Unicode字符集”时,编译器会增加宏定义——UNICODE;而选择“使用多字节字符集”时,编译器则不会增加宏定义——UNICODE。
首先,介绍一个WINDOWS的字符集,WINDOWS所支持的字符集包括两种,多字节和宽字符(UNICODE),而在WIN2K及其以上内核中,都是使用宽字符来实现的,但也保留了多字节支持的API接口,这个实现的原理,其实是收到多字节后,把其转换为宽字符,再传下内核对象处理的。 还有一点需要说明,Mircosoft将COM从16位转换成32位时,规定了将需要字符串的方法只接受UNICODE字符串。
strings命令是二进制工具集GNU Binutils的一员,用于打印文件中可打印字符串,文件可以是文本文件(test.c),但一般用于打印二进制目标文件、库或可执行文件中的可打印字符。字符串默认至少是4个或更多可打印字符的任意序列,可使用选项改变字符串最小长度。
根据给定的文章内容,撰写摘要总结。
seq(Sequence) 命令用于按照指定步长产生从起始数到结束数之间的所有整数。起始数和步长可使用默认值 1,结束数必须指定。
ctype.h是C标准函数库中的头文件,定义了一批C语言字符分类函数(C character classification functions),用于测试字符是否属于特定的字符类别,如字母字符、控制字符等等。既支持单字节字符,也支持宽字符。
在前几天的文章:隐写术:如何正确保护文章的版权?中,我们说到可以使用零宽字符把版权信息隐藏到正文中,从而既不影响阅读,又能在被抄袭的时候举证。
即使学习 C 语言的开发者,在第一次接触 Windows 编程的时见到像 LPCTSTR、TCHAR 这样的类型时都会觉得很难理解。请不要害怕,接下来我会介绍 Microsoft 是如何利用 C 语言中提供的基础类型定义出各种复杂 Windows 数据类型的。
C和C++程序通常会对文件进行读写,并将此作为它们正常操作的一部分。不计其数的漏洞正是由这些程序与文件系统(其操作由底层操作系统定义)交互方式的不规则性而产生的。这些漏洞最常由文件的识别问题、特权管理不善,以及竞争条件导致。
webug靶场的安装大家自己百度一下就ok了,相信这个对大家小菜一碟。我们直接开始把题目刷起来!这是题目的页面。
NTFS是微软Windows NT内核的系列操作系统支持的、一个特别为网络和磁盘配额、文件加密等管理安全特性设计的磁盘格式。NTFS比FAT文件系统更稳定,更安全,功能也更为强大。
如上,运行程序后,等待输入,先后输入1, 回车,按Ctrl+c,按顺序分别输出以上带背景色部分的内容。
(1)以字符为单位输出指定范围的字符。 首先使用cat命令显示原文本文件内容如下:
今天这个问题困扰了我好久,其实对于一个初学者来说,不必专研的太深,大致理解如下就可以了:
=============================================================================
Windows 这个多作业系统除了协调应用程序的执行、分配内存、管理资源之外, 它同时也是一个很大的服务中心,调用这个服务中心的各种服务(每一种服务就是一个函数),可以帮应用程序达到开启视窗、描绘图形、使用周边设备等目的,由于这些函数服务的对象是应用程序(Application), 所以便称之为 Application Programming Interface,简称 API 函数。WIN32 API也就是Microsoft Windows 32位平台的应用程序编程接口。
由于addslashes无视目标字符串的编码,直接按照二进制字节对字符串添加下划线,会导致很多注入隐患。
Windows 这个多作业系统除了协调应用程序的执行、分配内存、管理资源之外, 它同时也是⼀个很大的服务中心,调用这个服务中心的各种服务(每一种服务就是一个函数),可以帮应用程序达到开启视窗、描绘图形、使用周边设备等目的,由于这些函数服务的对象是应用程序(Application), 所以便称之为 Application Programming Interface,简称 API 函数。WIN32 API也就是Microsoft Windows32位平台的应用程序编程接口。
意思是-f指定格式,%后面指定3位数,默认是%g,%3g不够位数的地方都是空格填补
学习并了解到Html编码的知识,源于工作中的产品需求。如果一个URL里面包含Puny Code(不仅仅指中文,还可能是韩文等Unicode里非英文的国家文字,本文以含中文的URL为例),而且这个URL刚好被保存在Html中作为链接,那么其中的Puny Code将会被编码,因为中文等字符不能直接储存在Html的链接中。如果这时使用工具提取Html中URL,所得到的URL就需要解码处理。
使用C语言在Windows环境的控制台中模拟实现贪吃蛇游戏 功能: ①贪吃蛇地图 ②蛇的移动 ③蛇吃食物 ④蛇撞墙或者撞到自己死亡 ⑤计算得分 ⑥暂停游戏 ⑦加速蛇身 ⑧计算得分
把具有相同类型的若干个数据按一定顺序组织起来,这些同类数据元素的集合就称为数组。数组元素可以是基本数据类型,也可以是结构体类型。注意,C语言中的数组与其他编程语言的数组或列表有相似性,但本质上又有不同。
关于wchar_t 在C++标准中,wchar_t是宽字符类型,每个wchar_t类型占2个字节,16位宽。汉字的表示就要用到wchar_t 。char,我们都知道,占一个字节,8位宽。 标准C++中的wprintf()函数以及iostream类库中的类和对象能提供wchar_t宽字符类型的相关操作。 locale loc( "chs" );//定义“区域设置”为中文方式 wcout.imbue( loc );//载入中文字符输入方式 wchar_t str[]=L"中国";//定义宽字符数组,注意L是大写
在这篇文章:隐写术:如何正确保护文章的版权?里面,我介绍了两个特殊数字:8204和8205。当我们使用chr函数把他们转化成字符串以后,就能得到两个零宽字符。零宽字符肉眼不可见,也无法打印出来。
而单引号则用于表示Golang的一个特殊类型:rune,类似其他语言的byte但又不完全一样,是指:码点字面量(Unicode code point),不做任何转义的原始内容。
学习c语言十几年了,却从来没有完整的将c标准库看一看,我想在这一点上我是欠缺的。作为一个技术人员,无论什么时候都不能忘记自己最擅长的技能,这次借一个偶然的契机,翻一翻c标准库,希望以后自己在技术上越来越牛。
可以看到,这两个字符串都是4个汉字,说明没有零宽字符。那么为什么他们不一样呢?那我们看一下每个文字的 Unicode 码:
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html。
领取专属 10元无门槛券
手把手带您无忧上云