Insignia de participación en el curso Técnicas de Análisis de Datos y Big Data Francisco Javier Cervigon Ruckauer

Insignia de participación en el curso 

Técnicas de Análisis de Datos y Big Data




Francisco Javier Cervigon Ruckauer

Archivo del curso de Análisis de Datos y Big Data Francisco Javier Cervigon Ruckauer

Archivo del curso de Análisis de Datos y Big Data

Francisco Javier Cervigon Ruckauer

Índice del curso Francisco Javier Cervigon Ruckauer

Índice del curso

0. Guía del curso

1. Análisis y Visualización de datos Univariantes
Guía de aprendizaje
La muestra en investigación
Análisis Exploratorio de datos
Clasificación univariante

2. Análisis y Visualización de datos Multivariantes
Guía de aprendizaje
Relación multivariante cuantitativa
Relación multivariante cualitativa
Análisis multivariante de datos

3. Técnicas Econométricas (Modelización y Predicción)
Guía de aprendizaje
GRETL, la Econometría, Modelo de Regresión Lineal Simple
Modelo de Regresión Lineal Múltiple
Series temporales

4. Big Data: Conceptos, Métodos y Tecnologías
Guía de aprendizaje
Conceptos y Métodos para Ánalisis de Big Data
Arquitecturas de Análisis de Big Data
Tecnologías y Herramientas para Análisis de Big Data

5 Tendencias de Análisis de Datos y Big Data
Guía de aprendizaje
Tendencias en Análisis y Visualización de Datos
Tendencias en Técnicas Econométricas
Tendencias en Análisis de Big Data
Francisco Javier Cervigon Ruckauer

0. Guía del curso Francisco Javier Cervigon Ruckauer

0. Guía del curso

Descargar PDF
Descarga la guía del curso (PDF 302 kb)





Programa

ANÁLISIS Y VISUALIZACIÓN DE DATOS UNIVARIANTES

  • La muestra de investigación
  • Análisis exploratorio de datos
  • Clasificación univariante

ANÁLISIS Y VISUALIZACIÓN DE DATOS MULTIVARIANTES

  • Relación multivariante cuantitativa
  • Relación multivariante cualitativa
  • Análisis multivariante de datos

TÉCNICAS ECONOMÉTRICAS (MODELIZACIÓN Y PREDICCIÓN)

  • GRETL, la econometría, Modelo de Regresión Lineal Simple
  • Modelo de Regresión Lineal Múltiple
  • Series temporales

BIG DATA: CONCEPTOS, MÉTODOS Y TECNOLOGÍAS

  • Conceptos y métodos para análisis de Big Data
  • Arquitecturas de análisis de Big Data
  • Tecnologías y herramientas para análisis de Big Data

TENDENCIAS DE ANÁLISIS DE DATOS Y BIG DATA

  • Tendencias de análisis y visualización de datos
  • Tendencias de técnicas econométricas
  • Tendencias en análisis de Big Data







Francisco Javier Cervigon Ruckauer

1. Análisis y Visualización de datos Univariantes. Guía de aprendizaje. OBJETIVOS. CONTENIDOS. METODOLOGÍA Y RECURSOS. Francisco Javier Cervigon Ruckauer

1. Análisis y Visualización de datos Univariantes

Guía de aprendizaje

OBJETIVOS

En este tema aprenderemos las técnicas univariantes de análisis de una base de datos. Los y las estudiantes serán capaces de determinar el tamaño muestral requerido para realizar una base de datos, calcular los estadísticos más relevantes, los gráficos que permitan extraer conclusiones descriptivas y buscar patrones de referencia.
Las competencias que se pretende que alcance el alumnado son:
  • Capacidad para definir y plantear problemas y desarrollar metodologías para su resolución tanto en contextos académicos como profesionales
  • Capacidad para diseñar una base de datos
  • Capacidad de analizar las características de la base de datos
  • Capacidad de extraer información relevante de la base de datos

CONTENIDOS

En este tema trabajaremos los siguientes contenidos:

1. La muestra en investigación.

  • 1.1 Cálculo del tamaño muestral.
  • 1.2 Actividad de comprensión del tema la muestra en investigación.
  • 1.3 La escala: tipos y criterios de elección.

2. Elaboración de bases de datos.

  • 2.1 Análisis exploratorio de datos.
  • 2.2 Actividad de comprensión de los temas: la escala y construcción de bases de datos.
  • 2.3 Cálculo de medidas con herramientas informáticas.
  • 2.4 Visualización de datos univariantes.

3. Clasificacióon univariante

  • 3.1 Patrón de distribución de variables.
  • 3.2 Clasificación de variables con herramientas informáticas.

METODOLOGÍA Y RECURSOS

1.1. La muestra en investigación.

Los contenidos de este apartado se llevarán a cabo con clases expositivas (Video) en las que se revisarán los aspectos conceptuales y teóricos cálculo del tamaño muestral necesario para calcular los estadísticos más relevantes que representen una población, a continuación se realizará un ejercicio práctico de tipo test de aplicación de los contenidos teóricos. Finalmente, se expondrá los detalles de generación de bases de datos.

1.2. Análisis exploratorio de datos.

Los contenidos de este apartado se llevarán a cabo con clases expositivas (Video) en las que se revisarán los aspectos conceptuales y teóricos del análisis descriptivo univariante de las características de una población, a continuación se realizará un ejercicio práctico de tipo test de aplicación de los contenidos teóricos. Finalmente, se resolverá un caso práctico.

1.3. Clasificación univariante.

Se debatirá en una mesa redonda el tratamiento de grandes volúmenes de datos y a continuación se expondrán las técnicas actuales de clasificación de datos.

Francisco Javier Cervigon Ruckauer

La muestra en investigación. DISEÑO MUESTRAL. LA ESCALA: TIPOS Y CRITERIOS DE ELECCIÓN. ELABORACIÓN DE BASES DE DATOS. Francisco Javier Cervigon Ruckauer

La muestra en investigación

DISEÑO MUESTRAL


























FE DE ERRATAS

  • En el minuto 8:27 se menciona por error un nivel de confianza del 99%, cuando lo correcto es 98%

LA ESCALA: TIPOS Y CRITERIOS DE ELECCIÓN

La estadística puede definirse como la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en situaciones prácticas que entrañan incertidumbre. Nos permite distinguir y clasificar las características en estudio, organizar y tabular las medidas obtenidas mediante la construcción de tablas de frecuencia y elaborar una imagen que sea capaz de mostrar gráficamente unos resultados.
El comienzo de cualquier estudio debe ser: qué es lo que se desea medir o investigar y para qué.
Los caracteres o variables que medimos en nuestra población nos serán desconocidos y por tanto los consideraremos aleatorios. Cuando se conozcan los patrones bajo los cuales las características o variables quedan completamente identificadas, dejarán de ser aleatorios y pasarán a ser determinísticos. Recordemos que la estadística se centra en situaciones que entrañan incertidumbre (el caso aleatorio).
Los tipos de datos que podemos recoger en nuestras bases de datos son:
  • 1. Cuantitativos: La característica es contable. Ejemplo: edad, altura, número de veces que se realiza una acción, etc.

    • Discretas (número de coches, televisores, etc.).
    • Continuas (edad, peso, distancia, etc.).
  • 2. Cualitativos: La característica no es contable. Ejemplo: sexo, estado civil, apreciación de un producto, etc.

    • Dicotómicas (Sexo: mujer / varón, estado civil, etc.).
    • Politómicas ( Nivel de estudios, etc.).
    • Ordinales: establecen un orden entre los diferentes valores que puede tomar, aunque no sea contable.
A veces ocurre que una variable cuantitativa continua por naturaleza, aparece como discreta. Este este caso hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable.
Por ejemplo, si se quiere medir la altura en metros de personas con una regla que ofrece dos decimales de precisión, se puede obtener: Altura={. . . ; 1,50; 1,51; 1,52; 1,53; . . . }
En realidad lo que ocurre es que cada una de esas mediciones expresa que el verdadero valor de la misma se encuentra en un intervalo de radio 0,005.
Por tanto, cada una de las observaciones de la variable representa, más bien, un intervalo que un valor concreto.

ELABORACIÓN DE BASES DE DATOS

Las bases de datos son herramientas para organizar y recopilar información. Para que sea posible recuperar la información, ésta debe estar organizada en tablas de tal manera, que los datos se almacenen en filas y columnas. Así:
  • Cada fila de la tabla se denomina registro.
  • Cada columna de la tabla almacena la información de las características de los registros y se denominan campos.
De este modo, a medida que la base de datos crece, se pueden utilizar sistemas gestores de bases de datos, SGBD (del inglés Database Management System o DBMS), para almacenar y, posteriormente, acceder a subconjuntos reducidos de la base. Algunos de estos gestores son: Borland Paradox, Filemaker, IBM DB2, Ingres, Interbase, Microsoft SQL server, Microsoft Access, Microsoft FoxPro, Oracle, Sybase, MySQL, PostgreSQL, etc.
Se debe prestar especial cuidado a la hora de asignar las propiedades de los campos en la base de datos. Por ejemplo, si se desea medir la característica edad y sexo de un individuo, debe crearse el campo edad con formato de tipo numérico y el campo sexo con formato de tipo texto.
Es importante destacar que:
  • Las variables numéricas cambian de formato dependiendo de la procedencia del software (en Inglaterra el separador decimal se expresa con un punto mientras que en España se expresa con una coma).
  • Las variables de tipo fecha suelen dar conflicto al exportar las hojas de datos de unos programas a otros.
  • Aunque una variable de tipo cualitativo tenga una expresión numérica en la base de datos (por ejemplo, Hombre = 1, Mujer = 2), sigue siendo una variable no cuantitativa.

Francisco Javier Cervigon Ruckauer

Análisis Exploratorio de datos. ANÁLISIS UNIVARIANTE. VISUALIZACIÓN DE DATOS UNIVARIANTES: CASO PRÁCTICO. Francisco Javier Cervigon Ruckauer

Análisis Exploratorio de datos

ANÁLISIS UNIVARIANTE


























CÁLCULO DE MEDIDAS CON HERRAMIENTAS INFORMÁTICAS

Para calcular los estadísticos de centralización, posición y dispersión con herramientas informáticas se debe crear, en primer lugar, la base de datos. La siguiente figura muestra una pequeña base de datos de marcas de cosmética de compañías relevantes del mercado:
Una herramienta clásica es Microsoft Excel, que permite calcular los estadísticos más relevantes de una muestra. Para ello, se debe escribir el símbolo = en la celda en la cual se desea insertar la fórmula y elegir del menú desplegable la que sea más conveniente.
Permite insertar todas las fórmulas necesarias dependiendo de la naturaleza de las variables en estudio.

VISUALIZACIÓN DE DATOS UNIVARIANTES: CASO PRÁCTICO

Se dispone de una base de datos de 14 viviendas vendidas en la comunidad universitaria de San Diego en 1990, que incluye datos sobre el precio de venta y de las características de las viviendas. Son datos de sección cruzada y las variables que se consideran son:
P: Precio de venta en miles de dólares (Rango 199,9 - 505)
F2: Pies cuadrados de área habitable (Rango 1.065 – 3.000)
BEDRMS: Número de habitaciones (Rango 3 - 4)
BATHS: Número de baños (Rango 1,75 - 3)
Del análisis de los patrones de estas variables se extrae que los estadísticos más relevantes son:
PRECIOPIES2Nº DORMITORIOSNº BAÑOS
MEDIA317,491.910,933,162,36
DESV. ESTÁNDAR88,50577,760,500,45
MAX505300043
MIN199,91.06531,75
PERCENTIL904222.74043
Al dibujar los diagramas de cajas, se observa que no existen datos anómalos y que hay una gran amplitud en cuanto al tamaño y el precio de las viviendas seleccionadas.
En los histogramas de frecuencias de las variables se observa que, las variables precio y tamaño de la vivienda presentan mayor concentración de datos en la parte izquierda, lo que significa que hay mayor número de viviendas de precios más económicos de menor tamaño.
Francisco Javier Cervigon Ruckauer

Clasificación univariante MESA REDONDA: CASOS PRÁCTICOS Y FUTURO BIG DATA. CLASIFICACIÓN DE VARIABLES CON HERRAMIENTAS INFORMÁTICAS. Francisco Javier Cervigon Ruckauer

Clasificación univariante

MESA REDONDA: CASOS PRÁCTICOS Y FUTURO BIG DATA


























CLASIFICACIÓN DE VARIABLES CON HERRAMIENTAS INFORMÁTICAS

Se dispone de una base de datos de 14 viviendas vendidas en la comunidad universitaria de San Diego en 1990, que incluye datos sobre el precio de venta y de las características de las viviendas. Son datos de sección cruzada y las variables que se consideran son:
P: Precio de venta en miles de dólares (Rango 199,9 - 505)
F2: Pies cuadrados de área habitable (Rango 1.065 – 3.000)
BEDRMS: Número de habitaciones (Rango 3 - 4)
BATHS: Número de baños (Rango 1,75 - 3)
El análisis de patrones de estas variables muestra que las variables precio y tamaño de la vivienda son de tipo cualitativo continuo. Debido a que la base de datos es pequeña, no hay un patrón de distribución clásico que se ajuste a dichas variables, pero es posible que se pueda aproximar por un patrón de distribución normal.
Para contrastar las siguientes hipótesis:
H0: La distribución de la variable precio sigue un patrón normal.
H1: La distribución de la variable precio no sigue un patrón normal.
Se puede utilizar un software estadístico como R (https://www.r-project.org/) o IBM SPSS (http://www-01.ibm.com/software/es/analytics/spss/) e implementar el test de Kolmogorov-Smirnov ()
Precio
N14
Parámetros normales a,bMedia317,493
Desviación típica88,4982
Diferencias másAbsoluta0,243
extremasPositiva0,243
Negativa-0,092
Z de Kolmogorov-Smirnov0,910
Sig. asintót. (bilateral)0,379
En este caso, no se puede rechazar la hipótesis H0 que decía que la variable precio tiene un patrón normal. Análogamente, para la variable tamaño de la vivienda se plantea la hipótesis:
H0: La distribución de la variable tamaño sigue un patrón normal.
H1: La distribución de la variable tamaño no sigue un patrón normal.
Se puede utilizar un software estadístico como R (https://www.r-project.org/) o IBM SPSS (http://www-01.ibm.com/software/es/analytics/spss/) e implementar el test de Kolmogorov-Smirnov ()
Tamaño
N14
Parámetros normales a,bMedia1.910,33
Desviación típica577,75
Diferencias másAbsoluta0,189
extremasPositiva0,189
Negativa-0,098
Z de Kolmogorov-Smirnov0,706
Sig. asintót. (bilateral)0,701
En este caso, no podemos rechazar la hipótesis H0 que decía que la variable tamaño tiene un patrón normal.
Francisco Javier Cervigon Ruckauer