Python
Pandas
要学习pandas了,,看官网上的资料还是很多的,就根据找到的资料简单总结下吧。
这里也有很多同学分享的资料,这里都整理下,按照自己的理解整理下。
序
这里的主要内容,参考官方教程:
http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dsintro
pandas里面有3个基本的数据结构,
我们可以把Series,理解成一维数组,但是又和常规的一维数组不太一样。
Series是一维的标签数组,可以存储任意的数据类型(integers,strings,floating point numbers,Python objs,etc.)
这里为什么是标签数组呢?因为他多了一个轴的概念,类似索引,我们往下看下就知道了。
Series初始化
引入必要的类
基本初始化语法:
这个data,就是我们要初始化的数据,index,就是那个标签了,即索引
data呢,常规可以为:
from ndarray
如果data是ndarray,index的长度必须和data的长度一样,或者保持默认,index会自动初始化,就是下标从0开始
这里呢,我们data的长度是5,我们index的长度也是5
如果不是5呢,我们试试
这里是会报错的,少了不行,那多了呢?
也是不行的,所以,如果初始化index的话,长度一定要和data一样
当然,默认是可以的,
index默认初始化,从0开始
from dict
如果data为dict,因为dict是key,value的,所以,默认初始化时,会使用key来初始化index
当然,我们也可以,显式初始化index
通过上面的例子,我们发现,如果指定的index没有包括所有的data中的key,那么就只显示index中有的;
如果指定的index中有data中key没有的,那么就用NAN来赋值
from scalar value
如果data是常量,那么我们必须初始化index
刚试了下,好像也不用,默认会初始化一个长度的
Series使用
Series使用起来也很方便
Series is ndarray-like
我们可以使用下标,
Series is dict-like
我们也可以像dict一样,使用index来操作Series
附录(参考资料)
博客:1.1 pandas数据结构Series
官方教程:Intro to Data Structures
——update at 2017-08-07
Series使用后记
这里记录些Series使用上的心得
Series使用起来,不仅可以使用下标来获取元素,也可以使用index来获取
对于NaN值得处理,我们可以使用isnull,notnull来判断是否有NaN值
Series的索引就可就地修改,直接使用s.index