手把手教你Excel数据处理!

可见分析固然重要,但是没数据何来分析可言使有了数据,很多时候数据可能并不那么称心如意,比如含有很多冗余数据、或缺失不少数据,此时就需要先对数据进行处理,否则无法进行后续分析。

最近在读《谁说菜鸟不会数据分析》,此书应该是数据分析入门基础书,我看得挺基础的,学得也挺仔细,今天借着所学,来聊聊数据分析的前篇 — 数据处理。

数据处理指根据数据分析目的,对收集到的数据进行处理、加工,使数据具备准确性、一致性和有效性,形成适合用于后续分析的数据格式。常用的数据处理方法主要有:数据清洗、数据合并、数据拆分、数据计算、数据转换。

一、数据清洗

如之前所言,拿到的数据表中会存在一些数据重复、数据缺失的情况,此时就需要进行数据清洗,日常中常见的数据清洗方法主要有:重复数据处理、缺失数据处理、空格数据处理。

1. 重复数据处理

对于表中的重复数据,可采用函数法、高级筛选法、条件格式法、数据透视表、删除重复项等方法进行查看和删除,这些方法有的只能用于查看重复值但不方便删除,有的能直接删除但不体现重复值是什么,还有的既能体现重复值还能实现重复值的删除。下面就这些方法分别进行介绍。

a. 函数法(查看+删除)

采用COUNTIF(计数范围,计数条件)函数进行计数,通过数据来表示重复与否。其中计数条件可以是数字、表达式或文本,甚至可以是通配符。

如图,共有9条记录,使用COUNTIF()函数,以A列作为计数范围,计当前记录的数量,记为“重复标记1”,通过此标记可以得到哪些是重复记录及其重复次数。“重复标记2”是以当前记录及其之前记录为计数范围,记录当前记录是否重复及重复次数,通过此标记可以得到大于1的记录都是重复记录,等于1的记录即为去重之后的记录。

删除重复值后的结果如下。

操作后结果如下,可以看出效果跟函数法的重复标记1大致相同,但感觉不如函数法,无法很好地看出重复值及重复次数。

将姓名字段拖拽至行和值处,即可实现数据记录及其重复次数的展示,计数项中大于1的即为重复数据,行标签中的记录即为去重后的数据记录。这种方法可同时实现重复记录重复次数的统计和数据去重。

2. 缺失数据处理

对于表中的缺失数据,一般可采取下列方法进行缺失值填充,包括:使用样本统计量的值进行填充;使用模型计算的值进行填充;直接将包括缺失值的记录删除;忽略数据缺失,不作处理、之后需要进行相应分析时再进行处理。

提及缺失数据的填充,就不得不提查找和替换了,这两个是大家日常常用的功能,也都有其对应的快捷键:“Ctrl+F”,“Ctrl+H”,此处不多余讲了。

必须要提的是在书中学到了一个巨好用的批量填充方式,举例说明。

胖里有个个人品牌,主要生产牛仔裤、棉服、毛衣,在不同的电商平台开店,12月不同商品在不同平台销量情况如图所示。

这下名称列有很多空值待填充,可以选定A2:A13,快捷键“F5”开启“定位”,“定位条件:选定“空值”,即可定位所有空值,然后键盘先后输入“=”、“↑”,“Ctrl+Enter”,即可获得批量填充后的结果。这个操作我是第一次接触,许是孤陋寡闻了,但是强烈推荐!以后批量填充就可以直接用这种方法,特别是在数据量非常大的时候!

三、数据拆分

有数据合并就不免存在数据拆分,数据拆分也叫数据抽取。比如某字段存储着用户的身份证信息,可以通过拆分得到用户的省份、出生日期、性别等信息。再比如某表中有上万条数据,而分析时可能需要随机抽取某些数据作为样本进行分析。

按以上所述,数据拆分可分为字段拆分和随机抽样。

1. 字段拆分

如果想对某一字段进行拆分操作,首先可以选择菜单栏–数据–分列,利用分列功能按照想要的形式进行划分,下图附两张操作过程图,由于是自主分列,所以选择“固定宽度”,手动进行列的划分,得到想要的数据。

其次也可以采用LEFT()、RIGHT()、MID()函数进行某一字段的划分,其实也就是实现文本的提取,前两个函数有两个参数,最后一个函数有三个参数,具体用法可以直接在Excel中操作试试,也可自行百度。

2. 随机抽样

随机抽样是指抽取部分记录,书中介绍的是利用随机函数+VLOOKUP函数进行随机抽样。指先使用RAND()或RANDBETWEEN()函数对记录序 进行随机生成,然后通过VLOOKUP()函数进行数据匹配。

注意,在生成随机序 时可能存在重复的序 ,可以先对序 进行去重,得到所需要数量且不重复的随机序 后再进行数据匹配。

不同的工具有不同的转化方法,此处介绍的是Excel下的转化方式,由于我自己用的是mac,所以不能使用书上介绍的Windows版本的转换方法(想学的自己看书,哈哈哈),这边介绍下ios版本的转化方法,主要借助于OFFSET()函数。

OFFSET()函数是一个引用函数,可以引用某一个单元格或者区域,其参数包括参考系、上下偏移行数、左右偏移列数,要返回的引用区域的行数,要返回的引用区域的列数。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树数据分析Excel文件210992 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月18日
下一篇 2021年1月18日

相关推荐