MySQL
每周练习
本周我们来一道数据处理的练习题。
数据背景
不知道大家学会爬虫了没,拉勾网的数据大家会爬取了吗?这道题和拉勾网有关哦。
假设你已经学会爬取数据了,可以将数据爬取下来,数据可能是这个样子(demo库中的tm_lagou_data表):
在Python中,我们没有过多的处理,数据是这个样子的
这一次呢,我们只需要关注一个字段即可company_industry,这是公司所属行业
这个行业呢,一般会有多个,像上海的这个挖财网,就是互联网+金融,有2个标签,中间是逗号分隔符
问题描述
原始数据:
tm_lagou_data表中,company_industry(所属行业)字段可能会有多个值,并用逗号分隔
我们的目的是把这个字段拆分,变成下面这样的数据
处理后数据:
知识点
为了解决上面的问题,我们需要掌握的知识点如下:
附
有了拆分后的数据,我们就可以看数据分析师的行业分布,哪个行业招的数据分析师最多,哪个行业招的最少了。