En el Cesga con los puntos siguientes a tratar, mas info aquí.

TEMARIO para los días 15, 16, 17 y 18 de enero  de 2018 en horario de 10:00h a 14:00h.

Día 1

1. Trabajando con DataFrames en PySpark

  • Creación de DataFrames
  • Operaciones básicas
  • Filtrado, ordenación y agrupamiento
  • Funciones escalares, agregados y de ventana
  • Funciones definidas por el usuario
  • Uso de SQL

2. Análisis Exploratorio de Datos y Visualización con DataFrames

  • Preparación de datos
  • Extracción de características
  • Características derivadas y textuales
  • Normalización de características

Día 2:

3. Estadística computacional para análisis de datos

  • Estimadores puntuales
  • Distribuciones de datos
  • Valores extremos
  • Riesgo relativo
  • Probabilidad condicional
  • Estimación

Día 3:

4. Inferencia Estadística

  • Variabilidad de los estimadores
  • Intervalos de confianza
  • Contraste de hipótesis

5. Visualización con Matplotlib

  • Tipos de gráficas
  • Histogramas
  • Diagramas de cajas
  • Gráficos de superficies
  • Gráficos de puntos dispersos y hexagonales
  • Gráficos de tartas
  • Otras herramientas

Día 4:

6. Introducción a Machine Learning

  • Aprendizaje supervisado
  • Aprendizaje no supervisado
  • Regresión lineal
  • Modelos de clasificación en Spark
  • Regresión logística, SVMs lineales, Naive Bayes, Árboles de decisión
  • Spark MLib: Extracción, transformación y selección de características, análisis de componentes principales, clasificación y regresión, árboles de decisión, random forest, clasificación 1 vs Rest, Naive Bayes, regresión lineal, aprendizaje no supervisado

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Post Navigation