常见乱码产生原因以及锟斤拷的产生过程

常见乱码产生原因

名称	示例	特点	原因
古文码	浜屽紶涓夋潕鍥旇档鍏	大多为不认识的古文，夹杂日韩文	以GBK方式读取UTF-8编码的中文
方块码	???????	大部分字符为方块问	以UTF-8方式读取GBK编码的中文
符码	????????oèμμ-è??	大部分字符为各种符	以ISO8859-1方式读取UTF-8编码的中文
拼音码	??èyà???í?????á	大部分字符为带着声调的字母	以ISO8859-1方式读取GBK编码的中文
问句码	寮犱笁鏉庡洓鐜嬩簲叚鑰td>	基本和古文码一致，字符串为偶数时正常，长度为奇数时结尾会带上问	以GBK方式读取UTF-8编码的中文，然后又用GBK的格式再次读取
锟拷码	锟斤拷锟斤拷锟斤拷	基本都是锟斤拷三个字符	以GBK方式读取UTF-8编码的??

下面我们来看一下方块码具体是怎么来的
首先需要知道方块码‘?’的产生原因，由上图可知，方块码是以UTF-8方式读取GBK编码的中文，而UTF-8和GBK编码的区别在于：

张三的GBK编码：-43 -59 -56 -3
UTF-8读取GBK编码：????

“张三”在GBK中实际以-43 -59 -56 -3 进行存储，再由UTF-8读取时，由于这些码在UTF-8库中无法匹配
UTF-8字符集也有一个专门用于提示用户字符无法识别或展示的替换符：也就是‘?’
因此，我们会看到，使用UTF-8读取GBK编码的中文时就会产生方块码

由上表可知，锟拷码是由于以GBK方式读取UTF-8编码的??得到，而如果产生了方块码，就有可能会产生锟拷码

-17 -65 -67 -17 -65 -67 -17 -65 -67 -17 -65 -67
锟斤拷锟斤拷

????首先被转化成了12个字节，按照-17 -65 -67的顺序排列，因此，当使用GBK读取时，会两个两个进行解析，-17 -65 解析成锟，-67 -17 解析成斤，-65 -67解析成拷

由于?在UTF-8编码中会被编码成-17 -65 -67三个字节，而两个方块码会产生6个字节，正好满足GBK编码中取两个字节进行解码

文章知识点与官方知识档案匹配，可进一步学习相关知识Java技能树首页概览93567 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！