Fundamentos de Business Intelligence y Data Warehousing
Business Intelligence (BI)
BI: es el conjunto de procesos y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de los datos existentes, para ayudar a la toma de decisiones en una organización o empresa.
Data Warehouse
Data Warehouse: Es una base de datos con la forma adecuada, separada de los sistemas transaccionales e independiente de ellos.
“Un Data Warehouse es un repositorio de datos con una estructura orientada al negocio, integrada, no volátil y variable en el tiempo, organizada de forma tal que facilita el análisis de grandes volúmenes de datos para la toma de decisiones.” Bill Inmon
Sistema OLTP vs OLAP
Tipo de Sistema:
- OLTP: son sistemas preparados para realizar transacciones y procesos instantáneos.
- OLAP: son sistemas diseñados para consultas complejas y análisis.
Organización del sistema:
- OLTP: Alineados por módulos o funcionalidad dentro de la aplicación, no integrados.
- OLAP: Integrados y alineados en dimensiones que tienen sentido para el análisis que requiere el negocio.
Tratamiento de los datos:
- OLTP: Tiene un objetivo operacional. Se debe garantizar la consistencia de los datos.
- OLAP: Consolida datos ya validados y los adecua a las necesidades propias de la toma de decisiones.
Actualización:
- OLTP: actualización online.
- OLAP: actualización batch (ETL).
Tipos de datos:
- OLTP: Disponibilidad de datos recientes o de períodos cortos.
- OLAP: Disponibilidad de datos históricos.
Accesos:
- OTLP: Acceso a datos para altas, bajas, modificaciones.
- OLAP: El acceso a los datos es sólo de lectura y consulta.
Tipo de información:
- OLTP: Información detallada y no redundante orientada a favorecer la operación transaccional.
- OLAP: Información detallada, agregada y redundante para favorecer el análisis.
ETL
ETL: E: Extract T: Transform L: Load.
Es el proceso que se define para tomar los datos de los sistemas fuente y cargarlos en el DW.
Funciones:
- Transfiere información de los sistemas transaccionales y fuentes externas al DW.
- Normaliza diversas fuentes de datos.
- Completa información faltante.
- Detecta problemas de calidad en los datos.
- Agrega filas a las tablas de hechos.
- Genera métricas.
- Permite puntos de control y auditoría.
Extract
Se extraen los datos desde los distintos sistemas fuentes. Datos con diferente organización y formatos. Se programa en horarios en que el impacto sea mínimo.
Transform
Aplica reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Los datos se filtran, limpian, completan, homogenizan y se agrupan.
Load
Los datos transformados se incorporan al DW.
“En Inteligencia de Negocios, un Data Warehouse es volátil.” R: Falso
¿Cuál de los siguientes es un objetivo principal de un proyecto de BI, según la presentación? R: Satisfacer las necesidades de negocio a través del análisis de datos.
Selecciona todas las fuentes de datos válidas para un Data Warehouse: R: OLTP, Web 2.0, Fuentes externas
¿Cuáles son los pilares de la inteligencia de negocios mencionados en la presentación? R: Datos, información, conocimiento, decisión
“Los sistemas OLAP están diseñados para realizar transacciones y procesos instantáneos.” R: Falso (están diseñados para consultas complejas y análisis.)
¿Qué problema de BI se identifica cuando datos con el mismo nombre significan conceptos distintos? R: Inconsistencia de datos
¿Qué desafíos de BI se mencionan en la presentación? R: Tener una única verdad con datos confiables, Poder acceder a la información sin la intervención de sistemas, Incremento de la capacidad de almacenamiento.
“El análisis predictivo es uno de los 5 estilos de BI mencionados.” R: Verdadero
¿qué herramienta o concepto de BI permite analizar los datos desde múltiples perspectivas y dimensiones? R: OLAP
Marca algunos de los retos para convertirse en una organización basada en datos según la presentación. R: Unificación de datos, Unificación de datos, Seguridad de datos, Capacidad de almacenamiento escalable
“El modelo dimensional está diseñado exclusivamente para la implementación de procesos operacionales.” R: Falso (Está orientado a las características del negocio y a la rápida y flexible navegación por los datos para análisis.)
¿Qué elemento del modelo dimensional es una categoría para describir el contexto en el que se pueden analizar las medidas? R: Dimensión
¿Cuáles son los componentes principales de un modelo dimensional según la presentación? R: Hechos/medidas, Dimensiones, Atributos
¿Cuál de las siguientes describe mejor el concepto de “Atributos” en un modelo dimensional? R: Valores cualitativos de una transacción
“La granularidad en un modelo dimensional se refiere a la capacidad de agregar más dimensiones al modelo.” R: Falso (Se refiere al nivel más detallado que tiene cada tabla de hechos en el modelo del proceso de negocio.)
¿Qué tipo de relación entre atributos indica que cada elemento de un atributo se asocia con múltiples elementos de otro atributo dentro de la misma dimensión? R: 1:N
“Un cubo OLAP contiene medidas que son numéricas.” R: Verdadero (Las medidas en un cubo OLAP son valores numéricos que describen hechos analizados.)
¿Cuál es el propósito del proceso de diseño dimensional en BI? R: Facilitar el análisis y acceso a los datos para usuarios del negocio.
“Agregar una nueva dimensión al modelo dimensional siempre requiere una revisión completa del diseño existente.” R: Falso (Agregar una nueva dimensión puede ser parte de la evolución normal del modelo dimensional sin necesitar una revisión completa del diseño, especialmente si se ha planificado el modelo para ser escalable y flexible.)
cuál de las siguientes es una ventaja del enfoque de Kimball para la construcción de Data Marts. R: Generar soluciones más pequeñas y fáciles de construir.
cuáles son las características correctas de una dimensión conformada. R: Tiene el mismo significado en todos los Data Marts. Reduce los costos de mantenimiento.
“El método de la Matriz (Bus Matrix) se utiliza para visualizar la interacción entre las dimensiones y los hechos en un Data Warehouse.” R: Está en lo cierto
¿en que consiste la operación OLAP ‘Drill Down’?: R: Consiste en aumentar el nivel de detalle.
¿Cuáles son las operaciones típicas de OLAP mencionadas en la presentación?” R: Drill Across, Slice and Dice, Pivot
¿sabes si ROLAP utiliza una base de datos relacional para almacenar los datos del Data Warehouse?” R: Es correcto
“¿Cuál es la principal desventaja de MOLAP?”. R: La carga de datos puede ser muy prolongada. Por último, entre los dos se proponen seleccionar todas las características verdaderas del HOLAP. Marque las opciones correctas. R: Combina características del ROLAP y MOLAP.
“Una dimensión conformada implica que cualquier cambio en ella debe ser reflejado en todos los cubos que la utilicen.” R: Verdadero
“¿Qué porcentaje de tiempo y esfuerzo consume el proceso ETL en la construcción de un DW?”: R: 70-80%
la fase de carga en el proceso ETL implica que los datos se transformen, se ordenen y se consoliden antes de ser incorporados al DW. R: Es correcto
“La Staging Area es un área de almacenamiento temporal de datos utilizada durante los procesos de ETL para realizar transformaciones mínimas antes de cargar los datos en el DW.” R: Está en lo cierto
“¿Cuáles de las siguientes son etapas del proceso ETL?”: R: Extracción. Transformación. Carga
Su jefe le pide que mencione una de las funciones principales del proceso ETL. R: Transfiere información de los sistemas transaccionales y fuentes externas al DW.
“¿Cuáles de los siguientes son errores típicos en los datos” R: Datos incompletos. Datos Incorrectos. Datos incomprensibles
indique cuál proporciona IBM para la integración de datos: R: DataStage
que significa Data Quality en el contexto del ETL. R: Es un conjunto de tecnologías que aseguran la calidad de los datos según las necesidades de negocio.
“El Data Cleansing es el proceso de aplicar reglas de negocio a los datos extraídos para convertirlos en datos que serán cargados.” R: False