于贵洋的博客

BI、数据分析


  • 首页

  • 分类

  • 标签

  • 归档

  • 站点地图

  • 公益404

  • 关于

  • 搜索

Kettle手册(五)- 实例-增量同步数据

发表于 2017-03-28 | 分类于 ETL-Kettle

综合前面的几个例子,我们这里来是实现下增量数据的同步。
这里只是分享一种方法,实际工作中,还会有其他更好的方案。
增量同步的整体思路一般就是:首先拿到这张表的增量数据,怎么拿增量呢,源表需要有一个时间字段,代表该条记录的最新更新时间(及只要该条记录变化,该时间字段就会更新),当然有时间字段最好了,没有的话,可能需要做全表对比之类的操作;正常情况下,业务系统的表中都是有主键的,我们拿到增量数据之后,需要判断该记录的新插入的,还是更新的记录,如果是更新记录,我们需要先将数据加载到中间表,然后,根据主键将目标表中已存在的数据删除,最后再将本次的增量数据插入到目标表。

1.配置表的设计(元数据表)

首先我们需要一张配置表,来保存我们要增量同步的表的基本信息

1
2
3
4
5
6
7
--元数据表
create table tm_etl_table(
table_name varchar(50), --表名
is_run int , --调度状态
update_time timestamp,--表数据更新时间
etl_insert_time timestamp --记录更新时间
);

我们初始化一条记录,我们就以这张ods_tm_book表
Kettle-handbook-05-01.png
一些基础表准备

阅读全文 »

Kettle手册(四)- 变量的使用

发表于 2017-03-28 | 分类于 ETL-Kettle

我们在这一回,介绍下,Kettle中全局变量的使用,我们前面说过的配置文件,其实就是配置全局变量的地方
Kettle手册(三)- 配置文件的使用及密码加密

1. 全局变量

就是我们上面说的kettle.properties文件,我们在里面定义的变量,我们可以在所有的转换或者作业中获得到,比如,我们前面,说的数据库参数
Kettle-handbook-04-01.png
之前,我们已经在数据库连接中测试过,是可以,这里,我们输出下这个变量,看看

阅读全文 »

Kettle手册(三)- 配置文件的使用及密码加密

发表于 2017-03-28 | 分类于 ETL-Kettle

好了,我们上一回,练习了一个从数据库导出数据到Excel的例子,我们想一下,如果有很多个转换,我们没链接一次数据库,是不是都需要重复的输入那些数据库地址啊,数据库啊,用户名啊之类的。其实是不用的,我们可以使用变量的方式,写在配置文件中,下面,我们来看看。而且,我们平时开发,都有开发环境、UAT环境、生产环境,连接的地址都不一样,也不可能手动的去修改。

1. Kettle的配置文件

配置文件在哪呢?Windows下,是再当前用户的目录下,一般再C盘,Users下面,有一个当前用户的文件夹,下面有.kettle文件夹
Kettle-handbook-03-01.png
进入之后,我们会看到一个kettle.properties的文件,我们的数据库配置信息,就可以放在这里,
Kettle-handbook-03-02.png

阅读全文 »

Kettle手册(二)- 将数据导出为Excel

发表于 2017-03-27 | 分类于 ETL-Kettle

好了,我们先来看第一个例子,就是怎样将数据库中的数据,导出为Excel。
平时,如果我们需要将数据导出Excel的话,我们可能会直接复制,然后粘贴出来,但是数据量大的话,就不好用了;
或者使用Java等开发语言,写代码,导出Excel;或者一些数据库连接工具自带的导出功能。
其实,我们用Kettle的话,还是很方便的,但是平时用下来,Kettle的这个功能还是有些缺陷的,比如导出Excel2007+的时候,经常会报错,我一直也没有解决,这次记录博客顺便研究看看。

1. Kettle的下载及使用

正式开始之前,我们简单说下Kettle的安装配置啥的,Kettle是绿色的,下载之后,直接运行就可以了
刚刚在网上下了个最新版的,后面,我们就是用这个7.0版本介绍官网地址:Kettle官网

Kettle-handbook-02-01.png

阅读全文 »

Kettle手册(一)- 序及Kettle简介

发表于 2017-03-27 | 分类于 ETL-Kettle

1. 序

好久没有写博客了,新的一年总得留下点儿什么。目前主要负责数据仓库这一块任务,平时用用Kettle、SSIS这类ETL工具,而且工具的使用整理起来会方便些。所以先从Kettle开始,一点点整理下最近BI开发中掌握的知识。
以前有做过BI报表Cognos开发还有些入门级的Java,都在CSDN博客上,感兴趣的同学可以去看看:于贵洋的博客
Kettle-handbook-01Kettle-handbook-01-01
好了,下面就根据自己的经验和理解,整理下Kettle的知识。

阅读全文 »
1…212223
于贵洋

于贵洋

111 日志
17 分类
30 标签
RSS
GitHub
友情链接
  • 很久之前的CSDN博客
0%
© 2017 于贵洋
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.3
Hosted by GitHub Pages
本站访客数 人次 本站总访问量 次