Python
Pandas
这里来看一下,pandas中数据转换与合并的使用方法,刚刚学习了一下,很好用,就跟SQL里面一样。
#1. 合并数据集
就是说,我们有2个数据集,想要将他们合并一下,就是SQL里面的关联查询,pandas里面用一个函数就行了
熟练掌握几个参数就足够了,下面会依次介绍下
小例子
上面是我们的原始数据集,一个a,一个b,key是相同的字段,可以用来关联,
这个翻译成SQL,就是a join b on a.key=b.key(因为我们没有指定根据什么字段去关联,所以会使用a、b中名字一样的字段去关联)
我们当然可以手动指定关联的字段
如果,数据集中,关联字段名称一样,直接使用on就行了,如果不一样,就可以分别使用left_on 和right_on
如果关联字段又多个,就指定为数组就行了
我们再看下一个例子
熟悉SQL的同学,会发现,上面的结果集市inner join之后的结果,SQL中,还有什么left join、right join之类的,pandas中也有的
|
|
前面,我们的例子,都是通过columns来关联的,有的时候,我们可能需要使用index来关联,者就用到了另2个参数
|
|
2. 轴向连接
这里主要是介绍pandas中另一个函数的使用,pd.concat,concat一看上去,感觉是做拼接用的
我们先来看例子
默认,是按纵轴进行拼接的,我们可以设置
|
|
这里要注意下axis=1时,,如果index不一样,拼接的时候,是会合并的,如下面的例子
这里,我们看个常用的参数,join,可以选择是取交集还是并集
|
|
我们也可以指明其他轴要使用的索引,要显示的index
3. 合并重叠数据
这里是另一个函数的使用介绍 combine_first,类似于numpy中where,
|
|
combine_first还会做数据对齐的操作