When you enroll through our links, we may earn a small commission—at no extra cost to you. This helps keep our platform free and inspires us to add more value.

Udemy logo

Databricks e PySpark: analisando dados

Saiba trabalhar em alto nível na área de dados

     
  • 4.7
  •  |
  • Reviews ( 509 )
₹519

This Course Includes

  • iconudemy
  • icon4.7 (509 reviews )
  • icon6h 12m
  • iconenglish
  • iconOnline - Self Paced
  • iconprofessional certificate
  • iconUdemy

About Databricks e PySpark: analisando dados

Trazemos para você o que há de mais completo e atual no uso de ferramentas da área de dados nas grandes corporações pelo mundo, o uso do

Databricks

e do

PySpark

. O

Databricks

é um ecossistema completo que reúne as principais linguagens da era Data Science em um mesmo notebook, isso mesmo, um dos poucos produtos que possui multilinguagem em um mesmo notebook. Você vai trabalhar com Linguagem R, Python, Scala e ainda utilizando comandos em SQL, umas das linguagens de manipulação de dados mais utilizadas no mundo. Além disso, você produzirá gráficos no ambiente do Databricks, que já vem preparado para isso, tudo junto. Depois mergulharemos com tudo no uso do

PySpark.

Para quem não conhece, é o uso do PYTHON na estrutura de processamento SPARK, que vem revolucionando o mercado pela sua rapidez na execução de suas rotinas de trabalho. Com PySpark vamos aprender conceitos diferentes, trabalhar dados estruturados, semi-estruturados e não-estruturados, você terá vários scripts para executar durante o seu aprendizado. Databricks e Pyspark são destaque na era BIg Data, pois utilizam os conceitos de processamento distribuído e podem ser acessados e utilizados na nuvem, que já é muito comum nas empresas. Você vai contar com apostila, exercícios resolvidos e desafios para correção, não é o máximo? Então venha e una-se ao nosso grupo.

What You Will Learn?

  • Visualização para explorar resultados de consultas de diferentes perspectivas .
  • Construção de gráficos e Dashboards .
  • Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros .
  • Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades .
  • Aprendizado processamento distribuído em SPARK .
  • Entendo o que é Databricks File System (DBFS) seu sistema de arquivos .
  • Entendo sobre Cluster .
  • Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL .
  • Executando scripts multilinguagens .
  • Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards .
  • Construindo na versão community .
  • Trabalhando com a biblioteca dbutils Python .
  • Integrando o Databricks ao Power BI .
  • O que é PYSPARK .
  • O que é SPARK .
  • Instalando o SPARK em um ambiente Windows, configurando .
  • Instalando o ANACONDA .
  • Instalando a JDK .
  • Entendendo o ecossistema : Apache Spark + Anaconda + JAVA .
  • Entendendo o conceito de NÓ, CLUSTER .
  • Conhecendo os módulos e pacotes do PYSPARK .
  • O que é SparkContext .
  • Entendo o que é RDD (Resilient Distributed Dataset) .
  • Trabalhando com Spark Dataframe .
  • Compreendendo as diferenças entre transformações e ações, operações com PYSPARK .
  • Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take .
  • Aprendendo o que é uma função Lambda .
  • Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy .
  • Monitoramento de jobs com SPARK UI .
  • O que é SparkSession .
  • Leitura de arquivos externos .
  • SPARK SQL .
  • Leitura de dados em JSON Show moreShow less.