python大数据文件读取_利用Python读取外部数据文件

不论是数据分析,数据可视化,还是数据挖掘,一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析,同样最重要的一步就是如何将数据导入到Python中,然后才可以实现后面的数据分析、数据可视化、数据挖掘等。

在本期的Python学习中,我们将针对Python如何获取外部数据做一个详细的介绍,从中我们将会学习以下4个方面的数据获取:

2、读取电子表格文件,如Excel文件

3、读取统计软件生成的数据文件,如SAS数据集、SPSS数据集等

4、读取数据库数据,如MySQL数据、SQL Server数据

大家都知道,Python中pandas模块是专门用来数据分析的一个强大工具,在《Python数据分析之pandas学习(一)》和《Python数据分析之pandas学习(二)》中我们详细介绍了有关pandas模块的应用,下面我们就来介绍pandas是如何读取外部数据的。

1、读取txt数据

In [1]: import pandas as pd

In [2]: mydata_txt = pd.read_csv(‘C:\test_code.txt’,sep = ‘t’,encoding = ‘utf-8’)

2、读取csv数据

In [5]: mydata_csv = pd.read_csv(‘C:\test.csv’,sep = ‘,’,encoding = ‘utf-8’)

In [6]: mydata_csv

三、读取统计软件生成的数据文件

1、读取SAS数据集

SAS数据集的读取可以使用pandas模块中的read_sas函数,我们不妨试试该函数读取SAS数据集。下图是使用SAS打开的数据集,如果你的电脑中没有安装SAS,那你也可以通过Python实现数据的读取。

2、读取SPSS数据集

读取SPSS数据就稍微复杂一点,自己测试了好多次,查了好多资料,功夫不负有心人啊,最终还是搞定了。关于读取SPSS数据文件,需要为您的Python安装savReaderWriter模块,该模块可以到如下链接进行下载并安装:https://pypi.python.org/pypi/savReaderWriter/3.4.2。

安装savReaderWriter模块

可以通过该命令进行savReaderWriter模块的安装:python setup.py install

下图是SPSS数据在SPSS中打开的样子:

3、实在没办法该怎么办/p>

如果你尝试了好多种模块都无法读取某个统计软件的数据,我建议你还是回到R中,R也是开源的统计分析工具,体积也非常小,只有40M左右,而且R自带的foreign包可以读取很多种统计软件的数据集,当读取成功后,再利用write.csv函数将数据集写出为csv格式的数据,这样Python就可以轻松读取csv数据集了,万事灵活一点就可以完成你想要的任何结果~

四、读取数据库数据

企业中更多的数据还是存放在诸如MySQL、SQL Server、DB2等数据库中,为了能够使Python连接到数据库中,科学家专门设计了Python DB API的接口。我们仍然通过例子来说明Python是如何实现数据库的连接与操作的。

1、Python连接MySQL

MySQLdb模块是一个连接Python与MySQL的中间桥梁,但目前只能在Python2.x中运行,但不意味着Python3就无法连接MySQL数据库。这里向大家介绍一个非常灵活而强大的模块,那就是pymysql模块。我比较喜欢他的原因是,该模块可以伪装成MySQLdb模块,具体看下面的例子:

In [1]: import pymysql

In [2]: pymysql.install_as_MySQLdb()    #伪装为MySQLdb模块

In [3]: import MySQLdb

使用Connection函数联通Python与MySQL

In [4]: conn = MySQLdb.Connection(

…:        host = ‘localhost’,

…:        user = ‘root’,

…:        password = ‘snake’,

…:        port = 3306,

…:        database = ‘test’,

…:        charset=’gbk’)

使用conn的游标方法(cursor),目的是为接下来的数据库操作做铺垫。

In [5]: cursor = conn.cursor()

In [6]: sql = ‘select * from memberinfo’

执行SQL语句

In [7]: cursor.execute(sql)

Out[7]: 4

In [8]: data = cursor.fetchall()

In [9]: data

下面我们就是要pandas模块中的DataFrame函数将上面的data列表转换为Python的数据框格式:

In [14]: import pandas as pd

In [15]: mydata = pd.DataFrame(data, columns = [‘id’,’name’,’age’,’gender’])

In [16]: mydata

本期的内容就是向大家介绍如何使用Python实现外部数据的读取,只有完成了这个基本的第一步,才会顺利的进行下面的清洗、处理、分析甚至挖掘部分。这一期的内容出来的有点晚,主要还是工作比较繁忙,后期继续再接再励,谢谢大家一直以来的支持和互动。在下一期中,我们将介绍R语言中caret包如何实现特征选择。

学习与分享,取长补短, 博客:每天进步一点点2015

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树基本技能数据文件读写211723 人正在系统学习中 相关资源:凯利公司 KDZ 系列有刷串励、永磁、他励电机控制器设置软件.rar

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年2月1日
下一篇 2021年2月1日

相关推荐