Conceptos y Métodos para Ánalisis de Big Data Francisco Javier Cervigon Ruckauer

Conceptos y Métodos para Ánalisis de Big Data

INTRODUCCIÓN AL PROCESADO Y ANÁLISIS DE BIG DATA



























Clasificación de tipos de datos

  1. La obtención de datos es el primer paso para el análisis de big data. Se trata de una etapa crucial dentro de este proceso, puesto que suele consumir cerca del 85% del tiempo total de proyecto de análisis de datos. Con frecuencia, nos encontramos con la necesidad de importar datos de múltiples fuentes y codificados en múltiples formatos distintos.

    Estos datos se suelen colocar en una cola de adquisición que, progresivamente los envía a un sistema de procesado y almacenamiento de información.
  2. Es importante tener en cuenta ciertos factores en el diseño en sistemas de adquisición de datos. Por ejemplo, nunca se debe asumir que las fuentes van a enviar datos íntegros o correctamente representados. Pueden existir fallos y los sistemas de adquisición deben ser robustos, tomando decisiones para resolver o ignorar los fallos de forma que la adquisición de datos no se interrumpa.

  3. El rendimiento y velocidad de ejecución de los sistemas de obtención de datos es muy importante. Cuando se trabaja con datos que llegan a gran velocidad, se puede perder información si nos los recuperamos y procesamos a tiempo. De igual modo, también hay que respetar los límites de obtención de datos impuestos por muchos sistemas.

    Cuando se usan interfaces públicas para obtener datos, si se generan demasiadas peticiones en un cierto intervalo de tiempo, se corre el riesgo de sobrecargar un sistema que usan muchos otros usuarios. Como consecuencia, pueden prohibir el acceso al servicio de forma temporal o permanente.

    Atendiendo a sus estructura, podemos distinguir 3 grandes tipos de datos:
  • Datos estructurados: tienen una serie de campos con significado predefinido. Normalmente, se representan mediante una tabla de valores, en la que los campos son las columnas y los casos son las filas.

  • Datos semi-estructurados: se representan mediante un formato de codificación que aporta cierta estructura e información sobre los datos. A diferencia de los anteriores, no es obligatorio que todos los elementos contengan los mismos campos. Un ejemplo son los documentos en formato XML.
  • Este ejemplo, muestra datos que identifican a una persona. Sin embargo, para otro registro de otra persona puede que no haya información de todos los campos (e.g. que falte el número de teléfono o su dirección postal).
    • Datos no estructurados: no se representan mediante un esquema definido previamente. Un ejemplo son datos textuales (en lenguaje natural). Para procesarlos, se deben aplicar ciertas reglas (según el ejemplo, gramaticales y de alfabeto de cada idioma) para extraer la información que contienen.

    • Por último, un tipo de datos especialmente importante son los llamados datos semánticos

Se trata de datos que contienen información adicional sobre sus conexiones con otros datos relacionados. Así, los datos se organizan mediante una red de relaciones, sobre la que podemos realizar búsquedas inteligentes aprovechando la información sobre las conexiones de entidades individuales.

Ciclo de desarrollo de proyectos de big data

El ciclo de vida estándar de un proyecto de big data se puede representar mediante el siguiente diagrama. Las principales etapas que componen este ciclo son:




  1. El primero paso consiste en definir los objetivos del análisis. Un error muy común consiste en creer que los datos definen qué análisis se quiere hacer o qué preguntas se van a responder. Al contrario, un buen proyecto de big datasiempre define primero qué objetivos se persiguen y qué preguntas se quieren responder. A partir de ahí, se identifican los datos que necesarios para responder a esas preguntas.




  2. Obtención de datos. En este paso se obtienen, preparan y almacenan (si es posible) los datos para su análisis posterior. Es un paso complicado que absorbe mucho tiempo (hasta un 85% de la duración total del proyecto), debido a múltiples problemas: datos faltantes, datos corruptos, limpieza de los datos, pasar la información a un formato común, etc. Dentro de este paso suele ser importante realizar un análisis exploratorio de datos, fundamentalmente usando herramientas de visualización y gráficos, para conocer más detalles sobre la información que se extrae y detectar posibles problemas o anomalías.




  3. Una vez que los datos están preparados, se construye el modelo. En este paso, el analista o científico de datos crea un modelo que intente reflejar la realidad (proceso, fenómeno natural, etc.) que representan nuestros datos. El modelo resultante es la propuesta, basada en los datos, para explicar la realidad de forma simplificada. Para construir el modelo, normalmente se usa solo una fracción del total de datos disponibles, reservando el resto de datos para la siguiente etapa.




  4. Una vez que elaborado uno o varios modelos a partir de los datos, se procede a evaluarlos de forma crítica. Normalmente, para esta fase se usan los datos que hemos reservado previamente. El objetivo principal de esta estrategia es evitar lo que se denomina sobreajuste del modelo: es fácil construir un modelo que se ajuste muy bien a unos datos específicos, pero muy difícil que el mismo modelo se ajuste igual de bien a nuevos datos que lleguen. Esta estrategia permite evaluar (y si es posible, cuantificar) si se puede generalizar el modelo para otros datos (otros casos) distintos de los que se usan al construirlo.




  5. Cuando se crea un modelo suficientemente bueno y generalizable, el siguiente paso suele consistir en visualizar los resultados del análisis y presentarlos de forma adecuada y accesible para la audiencia en cuestión. La presentación debe adaptarse, por tanto, al interlocutor: más detalles para audiencia con más conocimientos; más sencillo para el público en general.




  6. El último paso, consiste en desplegar el proyecto en un sistema en producción que funcione continuamente analizando nuevos datos mediante el modelo propuesto y que realice diversas acciones como resultado: toma de decisiones, elaboración de informes, alerta de riesgos o errores, predicción de valores futuros, control de procesos, etc.
Francisco Javier Cervigon Ruckauer

No hay comentarios:

Publicar un comentario