js 汉字转gbk_js gbk转汉字_js gbk转 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【作者投稿】宽字符注入详解与实战

SQL语句是SELECT * FROM news WHERE tid='{$id}'，根据文章的id把文章从news表中提取出来，在$sql之前，我们只用了限制函数addslashes函数，对$id进行转义，只要我们输入参数在单引号中，就逃逸不出单引号的限制，从而无法注入。

00

浅析白盒审计中的字符编码及SQL注入

在freebuf上莫名地被喷，可能是因为被喷让人气上来了，最后得到的金币比前一篇文章更多。塞翁失马，焉知非福？

03

您找到你想要的搜索结果了吗？

是的

没有找到

前端工程师也应知道的字符编码知识

最开始计算机只在美国用，八位的字节可以组合出256种不同状态。0-32种状态规定了特殊用途,一旦终端、打印机遇上约定好的这些字节被传过来时，就要做一些约定的动作，如：

03

什么是宽字节注入_innodb_buffer_pool_size

宽字节注⼊源于程序员设置MySQL连接时错误配置为：set character_set_client=gbk，

02

彻底搞懂 python 中文乱码问题

我们来说说 Python 中是如何存储字符的，先来看一个乱码的例子。新建一个 demo.py 文件，文件存储格式为utf-8文件中内容如下。

04

关于 Python3 的编码

对应 C 代码为：unicodeobject.c 中的 _Py_normalize_encoding 函数。

02

彻底搞懂 python 中文乱码问题(深入分析)

前言曾几何时 Python 中文乱码的问题困扰了我很多很多年，每次出现中文乱码都要去网上搜索答案，虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼，究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使用中文，注释和提示都用英文，我曾经也这样干过，但这并不是解决问题，而是逃避问题，今天我们一起彻底解决 Python 中文乱码的问题。

03

19·灵魂前端工程师养成-JavaScript数据类型和运算符

-多年互联网运维工作经验，曾负责过大规模集群架构自动化运维管理工作。 -擅长Web集群架构与自动化运维，曾负责国内某大型金融公司运维工作。 -devops项目经理兼DBA。 -开发过一套自动化运维平台（功能如下）： 1)整合了各个公有云API，自主创建云主机。 2)ELK自动化收集日志功能。 3)Saltstack自动化运维统一配置管理工具。 4)Git、Jenkins自动化代码上线及自动化测试平台。 5)堡垒机，连接Linux、Windows平台及日志审计。 6)SQL执行及审批流程。 7)慢查询日志分析web界面。

02

不想再被鄙视？那就看进来！一文搞懂 Python 2 字符编码

来源：xybaby自荐投稿 www.cnblogs.com/xybaby/p/7814299.html 程序员都自视清高，觉得自己是创造者，经常鄙视不太懂技术的产品或者QA。可悲的是，程序员之间也相互鄙视，程序员的鄙视链流传甚广，作为一个Python程序员，自然最关心的是下面这幅图啦 📷 我们项目组一值使用Python2.7，虽然我们也知道Python3的诸多好处，也曾经蠢蠢欲动过，但由于各种历史原因，以及业务的压力，我们只可能继续使用Python2.7。更悲哀的是，我们组不是那么international

06

一个汉字占几个字节你真的记住了吗？

一个汉字占几个字节是不是不太好记呢，编码不一样则占字节位就不一样。下面用一段简短的代码了解一下一个汉字占几个字节。

01

UNICODE,GBK,UTF-8区别

UNICODE,GBK,UTF-8区别简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a040，gbk为b030，而uft-8码，就是把那个值表现的形式．utf-8码完全只针对uncode来组织的，如果ＧＢＫ要转ＵＴＦ－８必须先转uncode码，再转utf-8就ＯＫ了．详细的就见下面转的这篇文章．谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。 0、big endian和little endian big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。 “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。 1、字符编码、内码，顺带介绍汉字编码字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK都属于双字节字符集 (DBCS)。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码0x3400-0x4db5），一共收录了27484个汉字。 CJK就是中日韩的意思。Unicode为了节省码位，将中日韩三国语言中的文字统一编码。GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。 GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。例如：UCS的0x3400在GB18030中的编码应该是8139EF30，UCS的0x3401在GB18030中的编码应该是8139EF31。微软提供了GB18030的升级包，但这个升级包只是提供了一

02

一篇文章帮你解决中文乱码问题---JavaWeb中文编码问题全面解析

这就是为什么我们在浏览器的地址栏中能看到中文，但是把地址拷贝出来后中文就变成了一些奇怪的串了。

04

UNICODE,GBK,UTF-8

UNICODE,GBK,UTF-8 简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a040，gbk为b030，而uft-8码，就是把那个值表现的形式．utf-8码完全只针对uncode来组织的，如果ＧＢＫ要转ＵＴＦ－８必须先转uncode码，再转utf-8就ＯＫ了．详细的就见下面转的这篇文章．谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。 0、big endian和little endian big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。 “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。 1、字符编码、内码，顺带介绍汉字编码字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK都属于双字节字符集 (DBCS)。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码0x3400-0x4db5），一共收录了27484个汉字。 CJK就是中日韩的意思。Unicode为了节省码位，将中日韩三国语言中的文字统一编码。GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。 GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。例如：UCS的0x3400在GB18030中的编码应该是8139EF30，UCS的0x3401在GB18030中的编码应该是8139EF31。微软提供了GB18030的升级包，但这个升级包只是提供了一套支

02

字符编码技术专题(一)：快速理解ASCII、Unicode、GBK和UTF-8

今天中午，我突然想搞清楚 Unicode 和 UTF-8 之间的关系，就开始查资料。

05

字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8

原作者：阮一峰(ruanyifeng.com），现重新整理发布，感谢原作者的无私分享。

02

中文编码问题详解

ASCII,ISO-8859-1,GB2312,GNBK,UTF-8,UTF-16等

01

[评测]沁恒RISC-V开发板读取内存卡字库显示

再次感谢沁恒官方寄送的这块 CH32V103 开发板，集成了仿真下载器，集成了USB转串口，还兼容了Arduino接口，使用起来很方便。

02

Python分析西游记字数+爬虫初步

UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 575056: illegal multibyte sequence

02

摩斯码编解码器

今天是1024，程序员节那就干点儿程序员的事情。刚好，记得上高中时候，看过一部电影，无间道，里边黄秋生和梁朝伟用摩斯码通信，瞬间觉得好神秘，好帅气。最近闲来无事，出于对当初兴趣的尊敬，就顺手实现了一款简易的摩斯编解码器。

01

SQL注入实例学习待整理

注意：本文分享给安全从业人员,网站开发人员和运维人员在日常工作中使用和防范恶意攻击, 请勿恶意使用下面描述技术进行非法操作。

01

再谈java乱码：GBK和UTF-8互转尾部乱码问题分析

一直以为，java中任意unicode字符串，可以使用任意字符集转为byte[]再转回来，只要不抛出异常就不会丢失数据，事实证明这是错的。

01

python字符串

1. S.find(substr,[start,[end]]) 返回S中出现substr的第一个字母的标号，如果S中没有substr则返回-1，start和end作用就相当于在S[start:end]中搜索

02

ANSI和ASCII、GBK和GB2312、Unicode和UTF-8的区别

NSI码（American National Standards Institute）

01

Python爬虫的一次提问，引发的“乱码”问题

近日，有位小伙伴向我请教，在爬取某网站时，网页的源代码出现了中文乱码问题。之前关于爬虫乱码有很多粉丝的各式各样的问题，今天恋习Python与大家一起总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。

02

python 利用utf-8编码判断中文

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符，全角符号转半角符号，unicode字符串归一化等工作。

01

python判断unicode是否是汉字，数字，英文，或者其他字符

下面这个小工具包含了判断unicode是否是汉字，数字，英文，或者其他字符。全角符号转半角符号。 unicode字符串归一化等工作。

02

Oracle存储生僻字乱码问题

1、若Oracle数据库字符集为ZHS16GBK，则必须同时满足如下2个条件，才能避免生僻字乱码：

02

MySQL字符集终极指南--进阶篇

以下配置项是Linux系统的本地化（localization）设置，用于控制系统在不同方面如何呈现和处理数据。下面是每个配置项的解释：

03

java获取所输入汉字拼音的首字母

问题：但用android调用getFirstLetter（）方法，虚拟机上显示的都为'-'（即无法识别），请问是为什么？谢谢！

04

字符串实践常见问题总结

最近发现很多小伙伴搞不清楚编码和解码，以及字符串前缀 f、r、u 、b 的区别和使用。那以下内容千万不要错过！

03

【java基础之字符问题】UTF-8和GBK的区别与联系

1 字符集字符集就是编码的集合，例如unicode、GBK、GB2312等都属于字符集。

02

[PHP] 使用php生成下载csv文件

单元格内容用英文逗号分隔, 其中为了防止乱码,汉字部分会进行一个转码操作,从utf8转为gbk

01

计算机编码基础

09

PHP代码审计笔记--SQL注入

测试语句：id=1 UNION SELECT user(),2,3,4 from users

02

编码漫谈

Unicode用数字0-0x10FFFF来映射字符，最多可以容纳1114112个字符，或者说有1114112个码位，理论上是足够用的。

01

各种编码格式，你懂得！！！

GBK,ISO-8859-1,GB2312的本质区别编码有几种，计算机最初是在美国等国家发明的所以表示字符只有简单的几个字母只要对字母进行编码就好我们标准码 iso-8859-1 这就是一个标准但是后来计算机普及了于是就中国要使用计算机了但是机器不认得中文，于是就有了国际码。 gbk gb2312都是这类。两个其实一个，一个是标准（发布的代号），一个是简称。后来多了个阿拉伯语、日语、韩语......所以就出来统一编码UniCode ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。此字符集主要支持欧洲使用的语言。

05

各种字符编码详解

00

MySQL 中文转拼音函数

需求是将字符串中的汉字转为拼音。创建一个汉字转拼音的函数，在其中判断每个字符是否为中文，如果是则查询拼音表取得对应的拼音，否则原样返回。网上的大部分 MySQL 转拼音函数都是通过创建一个拼音对照表，然后在自定义函数中查询该表实现的。以下对这种实现做了修改，具有以下特点：

01

python的字符转换常见bug

write方法的参数类型是str，str是二进制流（不包含编码信息），当你给出一个unicode对象时，会执行str函数转换成str类型再送给write方法。unicode转str包含一次编码，如不指定则默认使用ascii编码，而ascii编码集里汉字字符是没有对应的，所以报错。

02

定位bug的思路

做测试这一行，总有一道绕不过去的坎就是定位bug，这其实是非常花费时间的。也许有很多人不以为然，觉得无非就是发现bug后提交bug管理系统，描述操作步骤，预期结果和实际结果哪里不一致，然后继续测试。并不是说这样做的不对，只是说这样做的不够好，看似节约了测试时间，实则对于项目的进度没有起到应有的推动作用。学会定位原因也是自我提升的一个过程

04

定位BUG思路

做测试这一行，总有一道绕不过去的坎就是定位bug，这其实是非常花费时间的。也许有很多人不以为然，觉得无非就是发现bug后提交bug管理系统，描述操作步骤，预期结果和实际结果哪里不一致，然后继续测试。并不是说这样做的不对，只是说这样做的不够好，看似节约了测试时间，实则对于项目的进度没有起到应有的推动作用。学会定位原因也是自我提升的一个过程

01

R+tmcn笔记︱tmcn包的基本内容以及李舰老师R语言大会展示内容摘录

tmcn包目前托管在在R-forge 上开发和发布。下载方式以及Rforge相关链接：

02

InputStream read（）方法详解「建议收藏」

在Java7中，InputStream被定义为一个抽象类，相应的，该类下的read()方法也是一个抽象方法，这也就意味着必须有一个类继承InputStream并且实现这个read方法。　　查阅Java7 API，我们可以看到，在InputStream中定义了三个重载的read()方法：

04

从零学习安全测试，从XSS漏洞攻击和防御开始

本篇包含了XSS漏洞攻击及防御详细介绍，包括漏洞基础、XSS基础、编码基础、XSS Payload、XSS攻击防御。

08

Django项目python2升级python3

使用开源django项目时发现项目python版本为2.7. 而python2在2020年后不再支持更新，相应的许多软件的新版本都不支持python2，为了兼容性需要升级python. 本文对比手动和脚本2to3升级python2过程，验证了脚本2to3相当好用，仅需手动修改python使用路径为python3路径及编码方式即可完成升级

04

Python全栈day 02

字符串格式化的意义，大部分字符过于冗长，使用字符串格式化能大大加快效率，方便程序员调用数据。

02

聊聊编码那些事，顺带实现base64

日常工作中，频繁的使用base64取代小图标，以便减少HTTP请求进而达到性能优化的目的。基于此来聊聊编码的发展、为什么需要base64以及如何实现base64。此文章首发于聊聊编码那些事，顺带实现base64转载请注明来源。

02

从零学习安全测试，从XSS漏洞攻击和防御开始

作者牛志恒，腾讯互娱开发工程师商业转载请联系腾讯WeTest获得授权，非商业转载请注明出处。 WeTest 导读本篇包含了XSS漏洞攻击及防御详细介绍，包括漏洞基础、XSS基础、编码基础、XSS Payload、XSS攻击防御。第一部分：漏洞攻防基础知识 XSS属于漏洞攻防，我们要研究它就要了解这个领域的一些行话，这样才好沟通交流。同时我建立了一个简易的攻击模型用于XSS漏洞学习。 1. 漏洞术语了解一些简单术语就好。 VUL Vulnerability漏洞，指能对系统造成损坏或能借之攻

02

再再谈java乱码：GBK和UTF-8互转尾部乱码问题分析（续）

在《再谈java乱码：GBK和UTF-8互转尾部乱码问题分析》我们分析了，如果从一个UTF-8 的字节序列，经过 new String(b,"GBK") 的操作，"可能"(与总字节数有关)会破坏数据。结果可能是，损失最后一个"字"。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭