PENTAHO DATA INTEGRATION
Nesse curso, vamos abordar os principais conceitos e fundamentos do
software Pentaho Data Integration, pra quem não conhece é uma ferramenta
muito utilizada para tratamento e ingestão de dados e o melhor é Open
Source.
E iremos criar um Data Wharehouse do zero com suas dimensões, tabela
fato, qual a diferença de uma carga full ou incremental e finalizando o
treinamento agendando a carga do nosso ETL, com a nossa didática já
conhecida no mercado de Hand-on, aonde os alunos aprendem fazendo,
treinamento 99% Prático.
Público-alvo
Qualquer profissional com interesse em aprender Business Intelligence, Big
Data e para analistas de negócios.
Requisitos
Compreensão de Banco de Dados relacionais e dos conceitos de Data
Warehouse, Business Intelligence.
Conteúdo Programático
Este é o conteúdo que será abordado durante o curso.
- Instalação
- Instalar Pentaho Data Integration e demais aplicativos.
- Instalar Banco de dados Mysql.
- Inputs
- Conectar o Pentaho no Mysql.
- Selecionar as tabelas e campos corretamente.
- Ordenar os registros chaves que serão utilizados nos relacionamentos.
- Transformações
- Fazer join entre duas ou mais tabelas.
- Agregar registros como sum,avg, count.
- Tratar os dados de forma rápida e eficiente.
- Filtro de registros.
- Unificar fluxos.
- Converter tipos de dados.
- Automatizando analises e processos.
- Fazer join entre duas ou mais tabelas.
- Criar campos calculados
- Criar cálculos entre Datas.
- Outputs
- Carregar registros em Excel e banco de dados
- Tratar os erros do fluxo num arquivo csv.
- Enviar o arquivo em um email enviado via Pentaho
- Jobs
- Executar várias transformações num mesmo job.
- Configurar o job para executar de forma agenda e automática.
- Enviar um email caso o job não for executado enviando em anexo o log
- Data Wharehouse
- Carregar os dados da origem numa área se staging
- Após os dados chegarem na staging, é hora de tratar os dados.
- Tratar registros nulos.
- Criação das Dimensões utilizando Table output e dimension Lookup.
- Vantagens em criar uma dimensão SCD-2 para controlar o histórico.
- Criar a Tabela Fato
- Diferença de um Carga Incremental e uma Carga Full
- Agendamento do ETL