python3 中文乱码 锟斤_乱码问题解决之“锟斤拷”

原标题:乱码问题解决之“锟斤拷”

技术总编:薛 原

乱码是我们在用stata读入文件时经常会出现并且令人头疼的问题,当我们错误定义了读入文件的编码时,就可能出现一些特殊的乱码问题。今天为大家介绍其中一种比较常见的乱码问题—-“锟斤拷”及其解决方法。

“锟斤拷”是一串经常在搜索引擎页面和其他 站上看到的乱码字符,如下图所示的某个单位招聘信息中,联系人和联系人职位两项,就无法被正确识别出来。

这个乱码是什么先来看一下它的庐山真面目。

local stkcdlab: variable label stkcdlabel var stkcd `=ustrfrom( “`stkcdlab'”, “gb18030”, 1) ‘

结果如图:

乱码标签比字符串“Stkcd”多了xefxbfxbdxefxbfxbd。

我们选择用两种方法来解决这个乱码问题。

数据处理、实证研究中提供帮助。承蒙30000+粉丝的支持与厚爱,我们在腾讯课堂推出了 络视频课程,专注于数据整理、 络爬虫、循环命令编制和结果输出…李老师及团队精彩的讲解,深入浅出,注重案例与实战,让您更加快速高效地掌握Stata技巧及数据处理的精髓,而且可以重复观看,百分百好评,简单易学,一个月让您从入门到精通,绝对物超所值!

爬虫俱乐部最近一次的 课为大家系统整理了各种stata读入文件乱码问题的解决方法,请大家关注爬虫俱乐部腾讯课堂的课程《精通stata之数据整理》。基本上,我们会按照一周一次课的频率持续更新学习内容,欢迎大家前去学习!课程 址:

https://ke.qq.com/course/286526in=1b60b462,敬请关注!

方法一

该方法是把乱码部分替换为空,这样,乱码标签就能够变为”Stkcd”了。根据前面的介绍,我们可以用ufffd表示乱码内容,而正则表达式可以使用这一类unicode转义字符,因此我们用正则表达式替换函数把乱码删除,程序如下:

clear

importdelimited using 资产负债表.csv, encoding( “utf-8”)local stkcdlab: variable label stkcdlabel var stkcd `=ustrregexra( “`stkcdlab'”, “ufffd”, “”) ‘

结果如下图所示,乱码问题得到了解决。

可以看到下面的编码显示的是Unicode编码,所以直接在encoding()选项后面选择Unicode来读入。然后乱码问题即得到解决。

clear

importdelimited using 资产负债表.csv, encoding( “unicode”)

关于我们

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览214541 人正在系统学习中 相关资源:论文降重软件工具(去重、消重亲测好用!!)_论文降重工具-桌面系统…

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月19日
下一篇 2020年11月19日

相关推荐