于贵洋的博客

BI、数据分析


  • 首页

  • 分类

  • 标签

  • 归档

  • 站点地图

  • 公益404

  • 关于

  • 搜索

读书笔记-数据化运营(1章)

发表于 2017-10-27 | 分类于 读书笔记

读书笔记
数据化运营速成手册
第一章

这本书,大概翻了一遍,感觉还不错,作者结合自身经验从实际问题角度出发给我们介绍了数据化运营、数据分析,书中图表、分析模型都是基于Excel的,不需要学习其他的工具,对于我们上手来说很简单。后面就让我们跟随作者的脚步,一步一步来学习下。

对于数据分析、数据化运营来说,最终的表现形式可能是一份数据分析报告,都说“字不如表,表不如图”,所以报告中可能会是各种图表,然而,是不是所有的报告或者需求都需要使用图表呢?这是我们首先要判断的问题。

真的要做图吗?

我们拿到一个需求,面对收集好的数据,我们首先要思考的是:真的要做图吗?
有时候,文字报告或者一个表格的表达效果会比图表好得多。
我们最终的目的,其实是准确传达信息或者解决业务方的疑问,不要盲目的认为图表一定是最好的。

  • 短期内了解性需求
    一些临时性的了解某个指标实际情况的需求:“近一个月的日活、上个月的支出”,我们只要提供准确的数据就好了。
  • 多维度相互组合的需求
    这里说的就是指标涉及的维度比较多,用图表没有办法准确的传达信息,作者有举一个具体的例子:

    老板说他想看上个月各个城市中VIP客户和非VIP客户数量的对比和同比上上月的情况。

基础数据是这样的

转化成图表可能会是这样,图看上去还不错

上面的折线图用的不太妥,折线图一般可能用在时间序列上或者具有演进关系的,而地区之间并没有这种演进关系,当然,我们可以改一下图表:

阅读全文 »

常见图表-直方图

发表于 2017-10-25 | 分类于 统计知识

常见图表介绍及实例

什么是直方图

直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。

直方图一开始可能是应用在工业生产领域,来做质量评估,判断生产稳定性

组数:在统计数据时,我们把数据按照不同的范围分成几个组,分成的组的个数称为组数。
组距:每一组两个端点的差。

作用(优势)

  1. 显示数据波动状态
  2. 直观的表达数据分布趋势
  3. 方便找到应该关注的点
阅读全文 »

平均数小记

发表于 2017-10-24 | 分类于 统计基础

我们日常生活中,经常会遇到平均数像什么平均工资,平均身高,平均成绩之类的,曾经在课上学习的相关知识估计早就忘记了,这里我们就来回顾下。
(下面部分介绍及例子摘自百度百科)

基本概念

算术平均数(arithmetic mean)

通常我们说的平均数都是“算术平均数”:平均成绩、平均身高、平均收入…

一组数据中所有数据之和再除以这组数据的个数,他反映一组数据的集中趋势
– 百度百科

from 百度百科

加权算术平均数

加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。

from baidu

这个表示每个数据都有一个权重,也比较常见,比如:

from baidu

通常我们再绩效考核中,有自评、领导评价,领导的评价一般权重较高,

阅读全文 »

MySQL-每周练习答案(2017-10-20)

发表于 2017-10-21 | 分类于 MySQL

MySQL
每周练习答案

这里和大家分享下本周练习题的一种解题思路

将题目简化一下,其实就是实现这样一个功能:

我们将使用逗号分隔的数据,拆分为多行数据,熟悉MySQL的同学,可能会想到,这有点儿像group_concat函数,但这是他的逆过程

测试数据

1
2
3
4
5
6
7
8
9
10
11
create table tm_company(
company_name varchar(10),
company_industry varchar(20)
);
insert into tm_company(company_name,company_industry) values('A公司','移动互联网,金融');
insert into tm_company(company_name,company_industry) values('B公司','移动互联网');
insert into tm_company(company_name,company_industry) values('C公司','教育,招聘,魔法');
select *from tm_company;

阅读全文 »

MySQL-每周练习(2017-10-20)

发表于 2017-10-18 | 分类于 MySQL

MySQL
每周练习

本周我们来一道数据处理的练习题。

数据背景

不知道大家学会爬虫了没,拉勾网的数据大家会爬取了吗?这道题和拉勾网有关哦。
假设你已经学会爬取数据了,可以将数据爬取下来,数据可能是这个样子(demo库中的tm_lagou_data表):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
CREATE TABLE `tm_lagou_data` (
`city` varchar(20) DEFAULT NULL COMMENT '城市',
`company_short_name` varchar(100) DEFAULT NULL COMMENT '公司简称',
`company_full_name` varchar(200) DEFAULT NULL COMMENT '公司全称',
`company_industry` varchar(100) DEFAULT NULL COMMENT '所属行业',
`company_location` varchar(100) DEFAULT NULL COMMENT '工作地点',
`position_advantage` varchar(100) DEFAULT NULL COMMENT '岗位特点',
`position_salary` varchar(20) DEFAULT NULL COMMENT '薪资',
`position_workyear` varchar(20) DEFAULT NULL COMMENT '工作经验',
`position_name` varchar(50) DEFAULT NULL COMMENT '职位名称',
`position_first_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-大类',
`position_second_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-小类',
`position_lables` varchar(100) DEFAULT NULL COMMENT '岗位标签',
`position_id` varchar(20) DEFAULT NULL COMMENT '岗位ID',
`create_time` datetime DEFAULT NULL COMMENT '发布时间',
`job_desc` text comment '岗位描述'
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='拉勾网-数据分析数据';

在Python中,我们没有过多的处理,数据是这个样子的

这一次呢,我们只需要关注一个字段即可company_industry,这是公司所属行业
这个行业呢,一般会有多个,像上海的这个挖财网,就是互联网+金融,有2个标签,中间是逗号分隔符

阅读全文 »
1234…23
于贵洋

于贵洋

111 日志
17 分类
30 标签
RSS
GitHub
友情链接
  • 很久之前的CSDN博客
0%
© 2017 于贵洋
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.3
Hosted by GitHub Pages
本站访客数 人次 本站总访问量 次