When you enroll through our links, we may earn a small commission—at no extra cost to you. This helps keep our platform free and inspires us to add more value.

Udemy logo

Databricks Delta Lake + APACHE HOP: Carga e Dados

Unindo as grandes ferramentas de ingestão de dados e operacionalização de dados no Databricks

     
  • 4.7
  •  |
  • Reviews ( 2 )
₹519

This Course Includes

  • iconudemy
  • icon4.7 (2 reviews )
  • icon9h 57m
  • iconenglish
  • iconOnline - Self Paced
  • iconprofessional certificate
  • iconUdemy

About Databricks Delta Lake + APACHE HOP: Carga e Dados

Este é um daqueles cursos que o profissional busca conhecimento sobre como construir um pipeline eficiente e performático e que resolva os problemas da sua organização, mas a pergunta principal seria, como posso manusear estas ferramentas de uma forma orquestrada, organizada que permita a construção de forma rápida e intuitiva? Por isso, trazemos a junção do

APACHE HOP

e do

Databricks Delta Lake

, que fará com que você resolva seus problemas com dados. O que podemos garantir que aprenderá neste curso: Na

primeira parte do curso do APACHE HOP

que vem completo, com atividades para tratamento e ingestão de dados para que você projete e construa um Data Warehouse, utilizando componentes 100% gráficos e de fácil manuseio, você não precisará digitar nenhum código, o APACHE HOP é low code, será possível combinar, enriquecer, limpar e de muitas outras maneiras manipular dados. A ideia é que você faça a leitura de dados, realize os ajustes e tratamentos no conteúdo (limpeza de inconsistências, criação de campos, composição de campos, dentre outros). Na

segunda parte com APACHE HOP

vamos construir um Data Warehouse com uma explanação sobre o que é BI, DW, como funciona a staging área, o que são dimensões e fatos e tudo que você tem direito sobre este mundo de dados. Iremos construir um projeto do zero para informações sobre vendas, trabalhando com tabelas de departamento, produto e vendedor. Ao final iremos construir um workflow, que terá todos os pipelines de cargas juntos e como podemos executá-lo dentro da ferramenta APACHE HOP e fora dela. Depois fecharemos com o curso mais solicitado nas organizações

Databricks Delta Lake

, faremos uma grande explanação sobre Databricks e suas aplicações, falaremos do que é mais importante no Delta Lake o controle de transações dos dados, onde trabalharemos com arquivos parquet, mas sendo consumidos e trabalhados com operações conhecidas em banco de dados. Databricks Delta Lake é o que de mais moderno em plataforma para cloud que utilizam o SPARK como seu motor de processamento e que permitem controlar todas as transações sobre seus dados de forma nativa. Então venha e comece hoje mesmo!

What You Will Learn?

  • Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks .
  • Construindo Delta Lake com processamento em batch, streaming em lote .
  • Controle de transações sobre os dados, como um banco de dados .
  • Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake .
  • Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos .
  • Uso das fases de ingestão, refinamento e enriquecimento dos dados .
  • Diferenças das arquiteturas Data Lake x Delta Lake .
  • Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil .
  • Trabalhando a criação de tabelas Delta e como gerar históricos de dados .
  • Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL .
  • Delta Time Travel como retornar versões de dados e comandos de controle .
  • Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo .
  • Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados .
  • Executando scripts batch e streaming .
  • Entendo o que significa checkpoint e controle de gravações dos dados .
  • Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta .
  • O que é Hop Orchestration Platform .
  • Entendendo sobre fluxos de trabalho e pipelines .
  • Entendendo sobre projetos e ambientes .
  • Instalação do APACHE HOP .
  • Criando pipelines com arquivos texto .
  • Realizando tratamento de dados para entendimento do processo de engenharia de dados .
  • O que são transformações, links e ações dentro de um pipeline .
  • Construindo um workflow, orquestrador da sequência das operações .
  • Entendendo o HOP GUI e seus componentes .
  • Entendendo menu barras, principal e perspectivas .
  • Criando sua área de projetos .
  • Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output .
  • Entendendo o que é : View output, Preview output , Debug output .
  • Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exis .
  • Leitura de dados em uma API: Rest Client, JSON Input, JSON Output .
  • Construindo Workflow com execução de pipelines .
  • Entendo o uso de variáveis globais no APACHE HOP .
  • Automatização de pipeline ou workflow pelo HOP-RUN .
  • Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão .
  • Instalação de banco de dados Postgresql, usando PGAdmin .
  • O que é Business Intelligence (BI) .
  • O que é Data Warehouse (DW) .
  • Como criar as tabelas staging, dimensão e fato .
  • Construção da carga dim_tempo .
  • Como o APACHE HOP pode se tornar um integrador de dados e construção de projetos de DW .
  • Entendendo o que é HOP projects .
  • Como funciona um pipeline e um workflow .
  • Interface de trabalho do APACHE HOP .
  • Instalação do APACHE HOP e do banco Postgres .
  • Entendendo sobre Modelagem Multidimensional .
  • Preparação de dados e construção de pipelines e workflow das cargas do DW .
  • O que são dimensões Slow Change Dimension 1 e 2 .
  • Executando os pacotes via HOP RUN .
  • Construindo o tratamento de dados e ajustes em campos .
  • Identificando as informações inconsistentes e armazenando no DW para ajustes Show moreShow less.