python3 中文乱码锟斤_乱码问题解决之“锟斤拷”

原标题：乱码问题解决之“锟斤拷”

技术总编：薛原

乱码是我们在用stata读入文件时经常会出现并且令人头疼的问题，当我们错误定义了读入文件的编码时，就可能出现一些特殊的乱码问题。今天为大家介绍其中一种比较常见的乱码问题—-“锟斤拷”及其解决方法。

“锟斤拷”是一串经常在搜索引擎页面和其他站上看到的乱码字符，如下图所示的某个单位招聘信息中，联系人和联系人职位两项，就无法被正确识别出来。

这个乱码是什么先来看一下它的庐山真面目。

local stkcdlab: variable label stkcdlabel var stkcd `=ustrfrom( “`stkcdlab'”, “gb18030”, 1) ‘

结果如图：

乱码标签比字符串“Stkcd”多了xefxbfxbdxefxbfxbd。

我们选择用两种方法来解决这个乱码问题。

数据处理、实证研究中提供帮助。承蒙30000+粉丝的支持与厚爱，我们在腾讯课堂推出了络视频课程，专注于数据整理、络爬虫、循环命令编制和结果输出…李老师及团队精彩的讲解，深入浅出，注重案例与实战，让您更加快速高效地掌握Stata技巧及数据处理的精髓，而且可以重复观看，百分百好评，简单易学，一个月让您从入门到精通，绝对物超所值！

爬虫俱乐部最近一次的课为大家系统整理了各种stata读入文件乱码问题的解决方法，请大家关注爬虫俱乐部腾讯课堂的课程《精通stata之数据整理》。基本上，我们会按照一周一次课的频率持续更新学习内容，欢迎大家前去学习！课程址：

https://ke.qq.com/course/286526in=1b60b462，敬请关注！

方法一

该方法是把乱码部分替换为空，这样，乱码标签就能够变为”Stkcd”了。根据前面的介绍，我们可以用ufffd表示乱码内容，而正则表达式可以使用这一类unicode转义字符，因此我们用正则表达式替换函数把乱码删除，程序如下:

clear

importdelimited using 资产负债表.csv, encoding( “utf-8”)local stkcdlab: variable label stkcdlabel var stkcd `=ustrregexra( “`stkcdlab'”, “ufffd”, “”) ‘

结果如下图所示，乱码问题得到了解决。

可以看到下面的编码显示的是Unicode编码，所以直接在encoding()选项后面选择Unicode来读入。然后乱码问题即得到解决。

clear

importdelimited using 资产负债表.csv, encoding( “unicode”)

关于我们

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览214541 人正在系统学习中相关资源：论文降重软件工具(去重、消重亲测好用!!)_论文降重工具-桌面系统…

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

python3 中文乱码 锟斤_乱码问题解决之“锟斤拷”

相关推荐

python3 中文乱码锟斤_乱码问题解决之“锟斤拷”