When you enroll through our links, we may earn a small commission—at no extra cost to you. This helps keep our platform free and inspires us to add more value.

Procesando el Big Data con Apache Spark (en español)
La mejor herramienta para el procesamiento del Big Data

This Course Includes
udemy
4 (524 reviews )
6h 27m
english
Online - Self Paced
professional certificate
Udemy
About Procesando el Big Data con Apache Spark (en español)
A través de este curso los alumnos aprenderán a programar con Apache Spark, la solución más eficiente y popular para procesar enormes cantidades de datos en clusters de cientos de máquinas. Spark es hasta 100 veces más rápido que Apache Hadoop si el procesamiento se hace en memoria y 10 veces más rápido si se hace en disco. Para conseguir este rendimiento, Spark incorpora un motor de ejecución avanzado basado en Grafos Dirigidos Acíclicos (DAGs) de tareas que permite el flujo de datos acíclico u la computación en memoria. Spark es fácil de usar, y permite utilizar diferentes lenguajes de programación, en concreto Python, Scala, Java o R. Ofrece más de 80 operadores de alto nivel que facilitan la creación de programas paralelos escalables a cientos o miles de máquinas. Y es posible utilizarlo de forma interactiva mediante los interpretes de Python, Scala o R, o utilizando herramientas como Apache Zeppelin, como veremos en este curso. Spark se puede ejecutar en un PC simple, en un cluster con Hadoop YARN o Apache Mesos, o en la nube, con soluciones como Amazon Elastic MapReduce o Microsoft HDInsight. Y puede acceder a datos almacenados el HDFS, Cassandra, HBase, Hive, Tachyon y cualquier fuente de datos accesible por Hadoop. Empezaremos viendo los elementos básicos de la programación Spark: los RDDs o _Resilient Distributed DataSets_. Veremos como crearlos, transformarlos y operar con ellos para procesar nuestros archivos.Continuaremos viendo aspectos avanzados para mejorar y optimizar nuestros códigos Spark y finalizaremos adentrándonos en el conjunto de soluciones de alto nivel de Spark: Spark SQL, Spark Streaming, Spark ML para problemas de Machine Learning, y GraphX para procesamiento de grafos. Todas estas soluciones pueden combinarse en la misma aplicación para alcanzar nuestros objetivos.
What You Will Learn?
- Los estudiantes serán capaces de desarrollar códigos en Apache Spark, usando RDDs y Dataframes. Tambiń introduciremos algunos aspectos de alto nivel, como la librería de machine learning Spark MLib, Spark streaming para el procesamiento de flujos de información y Spark GraphX para el procesamiento paralelo de grafos..