When you enroll through our links, we may earn a small commission—at no extra cost to you. This helps keep our platform free and inspires us to add more value.

Udemy logo

Análisis Exploratorio de Datos con Python y R

Análisis y manejo de datos con Python y R.

     
  • 5
  •  |
  • Reviews ( 0 )
₹519

This Course Includes

  • iconudemy
  • icon5 (0 reviews )
  • icon1h 49m
  • iconenglish
  • iconOnline - Self Paced
  • iconprofessional certificate
  • iconUdemy

About Análisis Exploratorio de Datos con Python y R

El análisis exploratorio de datos (EDA, por sus siglas en inglés, Exploratory Data Analysis) es el proceso o tratamiento estadístico al cual se someten los datos de una muestra con la que se busca representar a una población. Incluye la elaboración de gráficos y estadísticos que permiten explorar la distribución de los datos, identificando características como: valores atípicos o _outliers_ , saltos o discontinuidades, concentraciones de valores, forma de la distribución, etc. Esto permite conocer la naturaleza de los datos, entender su distribución y explorarlos mediante análisis estadístico, para posteriormente realizar el mejor modelo posible que permita sacar conclusiones sobre dichos datos. Este curso puede ser tenido en cuenta como un paso inicial para arrancar tu carrera como científico de datos (Data Scientist).

Sección 1:

Día a día vivimos rodeados de datos y estadísticas: cuando abrimos el periódico, cuando hacemos una transacción financiera, cuando vemos el noticiero, entre otros. Tenemos que asegurarnos de entender qué hay detrás de esos datos para asegurarnos de si debemos confiar o no en ellos. Además, podemos aprender a generarlos. Esta sección contiene la introdicción del curso y los pasos a seguir para completarlo satisfactoriamente.

Sección 2:

Esta parte del curso es una introducción a qué es la estadística, qué es el análisis exploratorio de datos y cuáles son las principales diferencias entre la estadística descriptiva y la inferencial. Además, veremos cuáles son los programas que se utilizarán durante el curso y cuál es la razón de que sean estos y no otros. Hasta acá, las dos primeras secciones del curso son cortas y concisas. En adelante, las siguientes son mucho más largas y contienen más material.

Sección 3:

En esta sección vamos a ver cómo se descargar los programas que soportan los lenguajes de programación Python y R, y vamos a ver cómo instalarlos en los dispositivos con sistema operativo Mac y Windows para poder usarlos de la mejor manera posible. Además, estudiaremos sus interfaces, para entender cómo funcionan y qué características tienen. Finalmente, veremos cuáles son las principales estructuras de datos en esos dos lenguajes de programación y cómo deben ser manejadas para no obtener errores en los resultados al manejar bases de datos y/o al crear nuevas variables.

Sección 4:

Una vez hemos instalado los principales programas que nos permite ejecutar Python y R, y habiendo explorado los principales tipos y estructuras de datos en estos dos lenguajes, esta sección nos introduce al Análisis Exploratorio de Datos (EDA, por sus siglas en inglés), a través de un conjunto de funciones iniciales que traen consigo las principales librerías descargadas e instaladas en la sección final del tema anterior: Pandas, Numpy y Matplotlib, en el caso de Python y; dplyr, tidyr y ggplot en R. Aprenderemos a importar bases de datos de Excel y otro tipo de archivos con extensión csv, siglas que responden a Comma Separated Values (en inglés) o valores separados por comas, así como archivos del programa estadístico Stata. A las variables contenidas en las bases abiertas les aplicaremos algunas transformaciones, agrupaciones, filtros y otras técnicas para su respectivo manejo y exploración. ¡Vamos con toda!

Sección 5:

Adicional a las librerías utilizadas para hacer transformaciones y manejos directamente a la base de datos, Python y R también tienen paquetes especializados para la generación de gráficos a partir de datos contenidos en datasets o a partir de datos que se le pueden indicar dentro del mismo código al gráfico deseado. En este caso, estaremos viendo algunos de los gráficos más utilizados en el análisis de datos, por lo básicos, pero efectivos que son a la hora de mostrar de una forma más agradable la información contenida en la base de datos: gráfico de barras, gráficos de porcentajes como el pie o torta, y otros gráficos un poco más avanzados.

Sección 6:

Ya ha conocido los dos programas y lenguajes de programación usados principalmente en la ciencia de datos, así como sus principales librerías, paquetes y funciones. Además, ha trabajado algunos de los manejos que se les pueden dar a los datos a través de Python y R, como filtros, agrupaciones, unión o pegado. Ahora, vamos a ver uno de los conceptos y mediciones primordiales de la estadística descriptiva: las medidas de tendencia central. Veremos acá la media, la mediana, la moda y los percentiles (cuartiles, quintiles, entre otros), así como los histogramas y boxplot para verlos gráficamente.

What You Will Learn?

  • Qué es el análisis exploratorio de datos .
  • Qué es la estadística, medidas de tendencia central y de dispersión .
  • Manejo de datos en Python y R: transformación, agrupación, filtros y otros. .
  • Principales librerías de Python y R para el manejo y análisis de datos .
  • Gráficas y otras técnicas avanzadas en Python y R.