When you enroll through our links, we may earn a small commission—at no extra cost to you. This helps keep our platform free and inspires us to add more value.

Databricks Delta Lake + NIFI: streaming e dados
Trabalhando com dados em alta escala NIFI e Databricks Delta Lake

This Course Includes
udemy
4.7 (3 reviews )
4h 17m
english
Online - Self Paced
professional certificate
Udemy
About Databricks Delta Lake + NIFI: streaming e dados
Um dos treinamentos mais esperados pelos profissionais de dados, que unem duas grandes ferramentas muito utilizadas pelos engenheiros de dados e que estão em qualquer projeto que utilize principalmente streaming de dados, estamos falando do uso do
Databricks Delta Lake
e do
APACHE NIFI.
Vamos iniciar nosso curso de forma incrível, trabalhando com que há de mais moderno no tratamento de dados na nuvem, faremos tudo isso no Databricks com o uso do Delta Lake. O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos Data Lakes, fornecendo recursos semelhantes a data warehouse, em cima do Data Lake. Ele também pode lidar com dados de Batch e Streaming perfeitamente. E esses componentes e recursos podem ajudar a construir uma arquitetura otimizada e bem integrada do Lakehouse. Depois vamos mergulhar no uso do
APACHE NIFI
, foi construído para automatizar o fluxo de dados entre os sistemas, As empresas têm mais de um sistema, onde alguns dos sistemas criam dados e alguns dos sistemas consomem dados, então o NIFI nasce no contexto de permitir a integração entre os softwares via fluxo de dados. Comumente aqui no nosso curso você vai ouvir falar um _FlowFile_ representa cada objeto movendo-se através do sistema e para cada um. Então, vamos começar nosso treinamento para aprender a trabalhar com estes dois gigantes da área de engenharia de dados?
What You Will Learn?
- Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks .
- Construindo Delta Lake com processamento em batch, streaming em lote .
- Controle de transações sobre os dados, como um banco de dados .
- Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake .
- Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos .
- Uso das fases de ingestão, refinamento e enriquecimento dos dados .
- Diferenças das arquiteturas Data Lake x Delta Lake .
- Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil .
- Trabalhando a criação de tabelas Delta e como gerar históricos de dados .
- Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL .
- Delta Time Travel como retornar versões de dados e comandos de controle .
- Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mu .
- Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados .
- Executando scripts batch e streaming .
- Entendo o que significa checkpoint e controle de gravações dos dados .
- Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta .
- Entendo sobre Apache Nifi, uma plataforma de ingestão de dados .
- Entendo sobre o gerenciamento e a automatização do fluxo de dados .
- Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados .
- Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões .
- O que é Flow File .
- O que é um Processor .
- O que é um Fluxo de Dados .
- O que é uma conexão .
- O que é um grupo de processor .
- Aprendendo sobre a barra de componentes .
- Aprendendo sobre a barra de controle navegação .
- Aprendendo sobre a barra de operação .
- Desenvolvimento de diversos fluxos de dados .
- Extensões: Putfile, Getfile, ExtractText, SplitText .
- Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile .
- Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute .
- Extensões: MergeContent, ReplaceText, CompressContent .
- Uso de Input Port, Funil e Process Group Show moreShow less.