Introducción a la Inteligencia de Negocios (BI)

Sistema de Comunicación Estructurado (Lenguaje)

Componentes del Lenguaje

Léxico: La correcta escritura y comunicación de las palabras.

Sintaxis: El orden de las palabras.

Semántica: El significado de las palabras.

Niveles del Saber

Dato: Algo concreto.

Información: Grupo de datos ordenados.

Conocimiento: Acumulación de información.

Sabiduría: Conocimiento profundo de la información.

Introducción a la Inteligencia de Negocios (BI)

Conjunto de estrategias, soluciones, datos y arquitectura TI enfocados en la creación y administración de conocimiento sobre el medio, a través del análisis de datos existentes en una organización. Registro de inventario. Procesamiento de la información.

Tipos de Análisis de Datos

Madurez: Capacidad de la organización para manejar sus datos.

Tipos: (en orden creciente de valor y dificultad)

  • Análisis Descriptivo: ¿Qué pasó? Información del negocio / Retrospectivo.
  • Análisis Diagnóstico: ¿Por qué pasó lo que pasó? Información del negocio / Retrospectivo.
  • Análisis Predictivo: ¿Qué ocurrirá? Optimización del funcionamiento del negocio / Visión o Percepción.
  • Análisis Prescriptivo: ¿Cómo hacemos que pase lo que queremos que pase? Optimización del funcionamiento del negocio / Visión o Percepción.
  • Análisis Cognitivo: ¿Cómo optimizamos las inferencias y determinamos qué hacemos si cambian las circunstancias? Optimización del funcionamiento del negocio / Previsión.

Roles en la Gestión de Datos

Analista de Negocio: Experto en la interpretación de datos, con un enfoque de negocio.

Ingeniero de Datos: Aprovisiona, configura y administra las tecnologías de la plataforma de datos (locales y en la nube), y protege el flujo de datos.

Científico de Datos (Data Scientist): Realiza análisis avanzados para extraer valor de los datos.

Administrador de Base de Datos (DBA): Responsable de la disponibilidad, optimización y rendimiento de las soluciones de base de datos.

Analista de Datos (Data Analyst): Maximiza el valor de los recursos de datos mediante herramientas de visualización y creación de informes. Responsable de la generación de perfiles, limpieza y transformación de datos.

Etapas de los Roles

  • Identificar preguntas que el negocio necesita resolver.
  • Identificar las fuentes de datos e información.
  • Integrar y preparar datos.
  • Modelar (conexión de tablas, creación y verificación).
  • Visualizar.
  • Analizar.
  • Gestionar la información (administrar y distribuir).

Bases de Datos

Sistemas Transaccionales

Centro de cómputo de la organización, permitiendo:

  • Registrar transacciones.
  • Apoyar el proceso de pago.
  • Soportar la gestión de inventario, etc.

Diseñados para:

  • Alta disponibilidad.
  • Redundancia en caso de fallas.
  • Registrar el máximo detalle posible.
  • Flexibilidad para adaptarse a las aplicaciones.

Constituidos por una agrupación de sistemas o parte de ellos:

  • Soporte multiplataforma y multilenguaje.
  • Cada sistema, grupo o parte de ellos responde a un área del negocio.

Modelo Entidad-Relación

Entidad: Representa un objeto o concepto del mundo real.

Relación: Vínculo entre dos o más entidades.

Cardinalidad de Relaciones: Número de instancias de vínculos en que puede participar una entidad (1 a 1, 1 a N, N a N).

Atributo: Propiedad de interés que describe la entidad.

Conceptos de BI

OLTP (On-Line Transaction Processing): ERP, CRM, Contabilidad. Diseñado para una velocidad de transacción óptima. Datos volátiles e información estructurada. Los datos no se almacenan por un período prolongado.

ETL (Extract, Transform & Load): Acciones programadas (procesos batch o en línea).

Data Warehouse: Almacén de datos electrónico, orientado a un ámbito determinado, integrado, no volátil (se construye para ser leído, no modificado) e histórico.

Data Mart: Subconjunto específico del Data Warehouse (modelo relacional).

OLAP: Parte específica dentro del Data Warehouse.

Reporting: Generación de informes.

Analytics: Análisis de datos.

Data Mining

Proceso que intenta descubrir patrones en grandes volúmenes de datos. Utiliza métodos estadísticos, aprendizaje automático, inteligencia artificial, entre otros.

Heurística: Arte o ciencia del descubrimiento

  1. Selección de muestra: Incluir la variable objetivo (a predecir) y las variables independientes (que podrían influir).
  2. Análisis de datos: Histogramas, dispersión, rangos, valores extremos, etc.
  3. Preprocesamiento: Adecuar y homologar los datos para su estudio.
  4. Aplicar técnica para minería de datos: Construir el modelo predictivo, de clasificación o segmentación.
  5. Extracción del conocimiento: Obtener el modelo que representa los patrones de comportamiento.
  6. Interpretación y evaluación de datos: Verificar la validez de las conclusiones del modelo.

ETL (Extract, Transform, Load)

Extracción: Lectura de datos desde su fuente original, con mínimo impacto en la operación.

Transformación: Normalización, limpieza y estructuración de datos de distintas fuentes.

Carga: Transferencia de datos leídos y estandarizados al repositorio de datos receptor.

Consideraciones al Construir un Data Warehouse

  • Levantamiento de los sistemas.
  • Levantamiento de necesidades.
  • Construcción del modelo de datos.
  • Diseño de los ETLs.
  • Gestión del Data Warehouse.

Modelo de Copo de Nieve: Normalizada.

Modelo de Estrella: Desnormalizada, más eficiente.

Ambos modelos se utilizan en el Data Mart.

OLAP: Base de datos orientada al procesamiento analítico, almacenamiento multidimensional de datos.

Otros Conceptos

Dataset: Conjunto o colección de datos, habitualmente tabulados, obtenidos de cualquier sistema de almacenamiento.

Ingesta de Datos o Proceso de ETLs: Carga de datos desde uno o varios orígenes a un repositorio.

Tipos de Ingesta:

  1. Tiempo real (datos urgentes).
  2. Por lotes (grupos de datos en intervalos programados).
  3. Equilibrada o combinada (combinación de las anteriores).

Data Wrangling: Preparación y manipulación de datos crudos (aprox. 70% del tiempo del proceso), agregación en un modelo estadístico y disposición para su consumo.

Data Cleaning: Limpieza de datos, descubrimiento y corrección o eliminación de registros erróneos.

Objeto Visual: Elemento que expone información (tabla, matriz, gráfico, etc.).

Visualización

  • Exponer información relevante.
  • Utilizar el criterio visual humano para extraer información.
  • Proporcionar descripciones sencillas de datos complejos.
  • Identificar y destacar las estructuras y patrones identificados.