MySQL-每周练习(2017-10-20)

MySQL
每周练习

本周我们来一道数据处理的练习题。

数据背景

不知道大家学会爬虫了没,拉勾网的数据大家会爬取了吗?这道题和拉勾网有关哦。
假设你已经学会爬取数据了,可以将数据爬取下来,数据可能是这个样子(demo库中的tm_lagou_data表):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
CREATE TABLE `tm_lagou_data` (
`city` varchar(20) DEFAULT NULL COMMENT '城市',
`company_short_name` varchar(100) DEFAULT NULL COMMENT '公司简称',
`company_full_name` varchar(200) DEFAULT NULL COMMENT '公司全称',
`company_industry` varchar(100) DEFAULT NULL COMMENT '所属行业',
`company_location` varchar(100) DEFAULT NULL COMMENT '工作地点',
`position_advantage` varchar(100) DEFAULT NULL COMMENT '岗位特点',
`position_salary` varchar(20) DEFAULT NULL COMMENT '薪资',
`position_workyear` varchar(20) DEFAULT NULL COMMENT '工作经验',
`position_name` varchar(50) DEFAULT NULL COMMENT '职位名称',
`position_first_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-大类',
`position_second_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-小类',
`position_lables` varchar(100) DEFAULT NULL COMMENT '岗位标签',
`position_id` varchar(20) DEFAULT NULL COMMENT '岗位ID',
`create_time` datetime DEFAULT NULL COMMENT '发布时间',
`job_desc` text comment '岗位描述'
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='拉勾网-数据分析数据';

在Python中,我们没有过多的处理,数据是这个样子的

这一次呢,我们只需要关注一个字段即可company_industry,这是公司所属行业
这个行业呢,一般会有多个,像上海的这个挖财网,就是互联网+金融,有2个标签,中间是逗号分隔符

问题描述

原始数据:

tm_lagou_data表中,company_industry(所属行业)字段可能会有多个值,并用逗号分隔

我们的目的是把这个字段拆分,变成下面这样的数据

处理后数据:

知识点

为了解决上面的问题,我们需要掌握的知识点如下:

有了拆分后的数据,我们就可以看数据分析师的行业分布,哪个行业招的数据分析师最多,哪个行业招的最少了。

于贵洋 wechat
要教我弹吉他嘛!