Python
Pandas
这里整理下pandas常用的操作,为什么要写这个呢?有本书《利用Python进行数据分析》一边看一遍记录下。
1. 重新索引(reindex)
就是重构一下索引,在重构的同时,我们可以做一些其他操作
一个小例子
对于DataFrame来说,用起来也是差不多的
2. 丢弃指定轴上的项
主要就是drop方法的使用
小例子
3. 算术运算和数据对齐
在numpy和pandas中好像都会看到这个词,数据对齐,就是说2个对象在运算的时候,会取一个并集,然后在自动对齐的时候,不重叠的部分就会填充NaN
小例子先看看
4.DataFrame和Series之间的运算
这里用到了一个广播的思想,就是指不同形状的数组之间的算术运算的执行方式,很强大的功能,这里,我们先简单了解下。
小例子
DataFrame和Series之间的计算也是这样
在这里,不能使用fill_value填充默认值,还不知道为啥,总是报错,说不支持
5. 函数应用和映射
这里主要是介绍DataFrame中的一个函数使用,apply,就是对DataFrame中的每一个元素执行传入的函数
小例子
这里还有一个applymap函数
这里得注意下,这2个函数的区别;
目前的理解是,applymap是元素级的,apply在轴上进行操作(貌似不太顺,等明白了再记录下)
6.处理缺失数据
在pandas中处理缺失数据非常容易,pandas使用浮点值NaN(Not a Number)表示缺失值。
前面,我们说过使用isnull来判断是否有NaN值
小例子
对于这种数据,我们要怎样处理呢?有的时候,我们可能会初始化为默认值,或者直接剔除掉
我们可以使用dropna函数来剔除掉,或者布尔类型索引
有的时候,我们想要做填充而不是剔除,像我们前面使用的参数fill_value