sábado, 26 de mayo de 2012

OLAP

 

Es el acrónimo en inglés  de procesamiento analítico en línea (On-Line Analytical Processing. Es una solución en el campo de la inteligencia de negocios cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para esto utiliza estructuras multidimensionales llamadas Cubos OLAP que contienen datos resumidos de grandes bases de datos o Sistemas transaccionales.

Las bases de datos OLAP organizan los datos por nivel de detalle, utilizando las mismas categorías que se utilizan para analizar los datos. Por ejemplo, una base de datos de ventas puede tener campos correspondientes al país, la región, la ciudad y el lugar de cada venta.

Características:

Permite organizar métricas a lo largo de múltiples dimensiones.

  • Permite hacer análisis multidimensional.
  • Se pueden realizar operaciones drill-down y roll-up dentro de cada dimensión

Relación entre OLAP y  Data Warehose

OLAP es el sistema de entrega de información para el Data Warehouse. Un Data Warehouse es el almacén de datos Un sistema OLAP apalanca un Data Warehouse al proveer capacidades de procesamiento más sofisticadas.

Cubo OLAP

image

Modelos para representar cubos:

  • Modelo Estrella

OLAP Data Model

Figura: http://www.dwreview.com/OLAP/Introduction_OLAP.html

 Modelos OLAP:

  • Relational OLAP (ROLAP): El sistema OLAP se construye sobre una de base  de datos relacional.
  • Multidimensional OLAP (MOLAP): El sistema OLAP se construye  sobre una base de datos multidimensional especializada

sábado, 19 de mayo de 2012

Principios de Modelado de Base de Datos Multidimensionales

 

Decisiones a tomar en el diseño:

  • Selección del proceso
  • Selección del nivel de detalle
  • Identificación de las dimensiones
  • Elección de los hechos (métricas)
  • Elección de la duración de la base de datos

Modelado  Dimensional

Es una técnica de diseño utilizada para estructurar dimensiones de negocios y  las métricas que son analizadas a lo largo de esas  dimensiones. También contempla el alto desempeño para consultas y análisis.

Elementos a modelar:

  • Métricas: son los hechos utilizados en el análisis
  • Dimensiones
  • Atributos de las dimensiones

¿Qué modelo de datos permite relacionar los hechos y las dimensiones de tal forma que?

  • Esté enfocado en consultas
  • Esté optimizado para consultas y análisis
  • Muestre las relaciones entre dimensiones y hechos
  • Esté estructurados de tal forma que cada dimensión pueda interactuar.

Para poder satisfacer estas características, se hace uso por ejemplo de un Modelo  de Estrella.

Modelado Dimensional

Modelado ER

Orientado a responder preguntas a lo largo de un procesos

Enfocado en la perspectiva de negocio de los administradores de negocio

Revela tendencias del negocio

Capturan detalles de eventos o transacciones


Enfoques en eventos individuales


Tiene el nivel de detalle necesario para hacer funcionar el negocio

Ventajas del esquema estrella:

  • Fácil de entender para los usuarios finales
  • Optimiza la navegación

Diseño de bases de Datos Multidimensionales

 

Data Warehouse vrs. Datamart

DATAWAREHOUSE DATA MART
  • Unión de todos los data marts.
  • Departamental
  • Procesos de negocio

Enfoque Top-down para construir Data Warehouse

El data warehouse central alimenta los data marts.

Ventajas:

  • Visión de la información a nivel de  toda la empresa
  • Almacén central y único de datos
  • Control centralizada de los datos
  • Puede proveer resultados inmediatos si se implementa a través de interacciones.

Desventajas:

  • Toma más tiempo en construirse, aun con un enfoque iterativo.
  • Mayores posibilidades de fracaso
  • Mayor dificultad para integrar unidades organizacionales
  • Es difícil elaborar pruebas de concepto de proyecto

Enfoque Bottom-up

El data warehouse es una colección de data marts.

Ventajas:

  • Implementación más rápida y fácil
  • Fácil elaborar pruebas dee conecepto
  • Menor riesgo de fracaso
  • Inherentemente incremental

Desventajas:

  • Cada data mart tiene una visión estrecha de los datos.
  • Pueden surigr redundancia entre los data marts
  • Datos inconsistentes
  • Pueden proliferar dificultades de interfaces entre data marts

sábado, 12 de mayo de 2012

Bases de Datos Multidimensionales Parte 1

 

Necesidades de Información Estratégica:

  • Las organizaciones tienen muchos datos
  • No se extrae valor a todos esos datos

¿Por qué si hay datos no se genera información?

Diversidad de tipos de:

  • Plataformas
  • Estructuras
  • Sistemas

El formato y la estructura no son apropiados, se requieren de sistemas que permitan ver tendencia y la información desde múltiples perspectivas.

Los ejecutivos lo que necesitan e información para la toma de decisiones estratégicas, es decir decisiones que llevan a la mejora del negocio, cumplimiento de los objetivos, etc..

Para qué información estratégica??

  • Formular estrategias de la empresa (soporte analítico, estadístico..)

En general los principales usuarios de éste tipo de información son los ejecutivos y administradores.

Ésta información debe contar con las siguientes características:

  • Integrada
  • Integridad de datos
  • Accesible
  • Credibilidad
  • Disponibilidad

Data WarehouseFigura 1

Características:

  • Una base de datos diseñada para tareas analíticas
  • Datos integrados de múltiples aplicaciones
  • Fácil de usar
  • Diseñado para sesiones de análisis interactivas
  • Base de datos con capacidad para soportar lecturas intensivas
  • Interacción de los usuarios finales sin asistencia de TI
  • Contenido actualizado constantemente
  • Los datos son actuales e históricos

Definición: Es ambiente de información que provee una visión integrada y unificada de la organización. Pone a disposición información actual e histórica para la toma de decisiones. Hace posible la toma de decisiones sin obstaculizar a los sistemas operacionales. Presenta información estratégica de una manera flexible e interactiva. Es un ambiente no un producto, es decir una combinación de tecnologías.

¿Qué es la inteligencia de Negocios?

Es un grupo amplio de conceptos, técnicas, aplicaciones y tecnologías para la toma de decisiones basada en hechos.

 Referencias:

Figura 1: http://delfos.bligoo.com/content/view/195902/Data-Warehouse-Data-mart-y-Data-Mining.html

Database Adminitration by Craig S. Mullins

viernes, 11 de mayo de 2012

Administración del Rendimiento de la Base de Datos

 

Un buen administrador de base de datos debería tomar en cuenta el monitoreo y la optimización del desempeño, son tareas primordiales que no debería pasar por alto.

Cualquier persona que haya utilizado un computador sabe que siempre puede surgir cualquier tipo de problemas en éste caso de rendimiento.

Factores que influyen en el rendimiento y que se deben considerar:

1. La Carga de Trabajo:

Es la combinación de las transacciones en línea, trabajos por lotes, consultas ad hoc, análisis de data warehousing y comandos del sistema, etc. en un momento dado. La carga de trabajo puede variar drásticamente de un día para otro, en horas, incluso en cuestiones de minutos. Sin embargo esa carga puede predecirse, es decir, se puede determinar qué días hay mas movimientos o transacciones para tomar las medidas necesarios. Lo importante es considerar que el volumen total de trabajo tiene un gran impacto en el rendimiento de la base de datos.

2. Rendimiento:

Define la capacidad general de la computador para procesar los datos. El rendimiento viene dado por la velocidad de E/S, por la velocidad del CPU, las capacidades paralelas de la máquina, la eficiencia del sistema operativo y el software.

3. Recursos:

Hardware y Software. Ejemplos de recursos: discos duros, los chips de la RAM, controladores de cache, etc.

4. Optimización:

Cualquier tipo de sistema puede ser optimizado, pero con las bases de datos relaciones la optimización viene siendo a nivel de consultas de forma interna al DBMS. Sin embargo existen otros factores que debería ser optimizados como la formulación de bases de datos y parámetros, con el objetivo que el optimizador pueda crear vías de acceso más eficientes.

5. Contención:

Es la condición en la que dos o más componentes de la carga de trabajo están tratando de utilizar un único recurso de una manera conflictiva (ejemplo: actualización al mismo registro de datos). A medida que aumenta la contención el rendimiento baja.

Bueno entonces cómo se define el Rendimiento:

El rendimiento de base de datos es la optimización del uso de los recursos para aumentar el rendimiento y minimizar la contención, lo que permite trabajar gran cantidad de cargas de trabajo.

Componentes de la Administración del Rendimiento

El proceso de administración del rendimiento consiste en tres pasos:

  • Monitorear
  • Analizar
  • Corregir

image

 

Referencias:

Database Adminitration  by Craig S. Mullins