pandas简介
pandas是一个python的软件包,是基于numpy的一种工具,提供了快速、灵活和富有表现力的数据结构,是强大而有效的数据分析工具。
-
pandas的核心数据结构
pandas最核心的两个数据结构:Series和DataFrame。
DataFrame可以看做是Series的容器,一个DataFrame可以包含若干个Series。
- Series
输出:
数组a及a的大小:
[1 2 3]
(3,)
数组b(第1列为序列数,第2列为元素值)及b的大小:
0 1
1 2
2 3
dtype: int64
(3,)
DataFrame
输出:
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
输出:
0 1
1 5
2 9
Name: 1, dtype: int32
输出:
0 4
1 5
2 6
3 7
Name: 1, dtype: int32
输出:
输出:
输出:
- 数据访问
输出:
Index([0, 1, 2, 3], dtype=‘object’)
输出:
RangeIndex(start=0, stop=3, step=1)
输出:
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
输出:
loc按索引进行索引
-
pandas对数据文件的读取:
通常涉及到两个函数:read_csv和read_excel
输出:
. 无效值处理
(1)预测样本:样本行不能删去,可以删去特征列。
(2)训练样本:可以直接删去样本行,或用其他值填充该值。
输出:
输出:
输出:

愿今朝,胜旧朝,不负韶华,继续前进!
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树结构化数据分析工具PandasPandas概览208941 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!