Data Warehouse - Banco de Dados

 Autor: Carlos Alberto Sowek - GPT

DATA WAREHOUSE – BANCO DE DADOS

  Sobre Data Warehouse já tivemos bastante informações, sabemos de sua importância, da necessidade do envolvimento da organização neste processo, os custos e o tempo envolvido e as formas para sua construção, itens que estão de forma resumida colocados na fig.1.

 

  Data Mart Data Warehouse
Tamanho Em média 50 GB; Possível até 250 GB Muitas vezes Terabytes ou mais 
Propósito Área por assunto específico  Repositório da organização
Como iniciar "Bottom-up" "Top-down", visando formar o modelo da organização 
Controle Departamental Sistema de Informação
Limite de tempo 3 a 6 meses 1 até 2 anos
Custo De R$10.000 a R$1.000.000 Milhões de reais

  Fig.1: Data Mart ou Data Warehouse.

Neste artigo vamos dar ênfase na questão dos Sistemas Gerenciadores de Banco de Dados (SGBD) onde vão estar os dados armazenados do ambiente de Data Warehouse.

Banco de dados relacionais são mais flexíveis quando eles são usados com uma estrutura de dados normalizada. Em uma estrutura normalizada, estruturas de dados não são redundantes e representam as entidades e relacionamentos básicos descritos pelo dado (ex: produtos, vendas). A performance dos tradicionais SGBDR é melhor para "queries" baseadas em chaves do que as "queries" baseadas em conteúdo.

Para suportar warehouse para grande volume são necessárias aplicações OLAP (On-Line Analytical Processing). Vendedores têm adicionado novas características nos tradicionais SGBDR. Estes, assim chamados super relacional, incluem características de suporte para hardware de banco de dados especializados, assim como a máquina de banco de dados da Teradata. Características de super relacional também suportam extensões para formatos de armazenamento e para operações relacionais (oferecidas por vendedores como Red Brick) e esquemas de indexação especializada, como aquelas usadas pelo Sybase IQ. Estas técnicas podem melhorar a performance na recuperação baseada em conteúdo por "prejoining" de tabelas usando índices ou através do uso de listas completas de índices invertidos.

Na figura 2 colocamos algumas características de banco de dados e algumas das funções que eles suportam.

 

Características/ Funções Relacional Super  Relacional Multi Dimensional Objeto  Relacional

Estrutura normalizada

x

x

 

x

Tipos de dados abstratos

     

x

Paralelismo

x

     

Estruturas Multidimensionais

 

x

x

 

"Drill-down"

   

x

x

"Rotation"

   

x

x

  Fig.2: Como DBMS são comparados.

A limitação de ambos SGBDR (Sistemas Gerenciadores de Banco de Dados Relacional) e MDDB (MultiDimensional Database) é a falta de suporte para tratar tipos de dados não convencionais, assim como imagens, documentos e "clips" de vídeo/áudio. Se necessitar destes tipos de objetos em seu Data Warehouse, olhe para um SGBD objeto relacional. Focado no valor do dado armazenado muitos sistemas de banco de dados podem acomodar estes tipos de dados somente com algumas extensões baseadas na referência, assim como ponteiros para arquivos contendo os objetos. Muitos SGBDR´s armazenam dados complexos como BLOBs (Binary Large Objects), neste formato os objetos não podem ser indexados, classificados ou pesquisados pelo servidor.

IBM, Informix, Oracle e Sybase oferecem versões que suportam operações paralelas. Software paralelo faz "splits" de consultas, "joins" em multiprocessadores e rodam estas operações simultaneamente para prover performance. Paralelismo é requerido para melhorar a performance em grandes servidores MPP e SMP clustered. Isto não é ainda uma opção para os MDDB e SGBD objeto relacional. Uma arquitetura que requer plataforma de servidores paralela é difícil para criar e manter com sucesso.

Na figura 3, mostramos alguns tipos de ambientes e o tipo de arquitetura que podem ser escolhidas, tudo depende de quanto você tem para investir nesta tecnologia. A princípio pelo seu volume de dados inicial pode-se começar com o que tem disponível, e a medida que o ambiente vai crescendo em volume e em acesso, deve-se estar preparado para a ampliação neste ambiente de Data Warehouse.

 

Para estes ambientes .... Escolher ....
Requisitos do  Negócio Ambiente do Usuário Sistemas Suportados Arquitetura Server DBMS
Escopo: departamental Uso: análise de dados Pequeno Local único Local mínimo Central médio Consolidada Um processador Ou SMP MDDB
Escopo: departamental Uso: análise de dados e informações Grande, análise para um local, informações para usuários espalhados Local mínimo Central médio Camadas: Detalhes para central Sumário p/ local SMP p/ central SP ou SMP p/ local SGBDR p/ central MDDB p/local
Escopo: empresa Uso: análise de dados e informações Grande, Geograficamente Disperso Central forte Centralizada SMP Objeto relacional com suporte a Web
Escopo: departamental Uso: exploratório Pequeno, poucos sites Central forte Centralizada MPP SGBDR com  suporte paralelo

  Fig.3: Matriz de Decisão para Data Warehouse.

Relacionamos alguns nomes dos fornecedores de SGBD´s e o nome das suas soluções para DataMart, que vão desde suporte metodológico até parceria com outros fornecedores de produtos que complementam a implantação de um Data Mart:

  • Oracle - Oracle DataMart Suite (com Oracle Express)
  • Sybase - QuickStart DataMart (com Sybase IQ)
  • Informix - Informix FastStart DataMart (com MetaCube)
  • IBM - Visual Warehouse

Para dar uma visão mais ampla do que existe no mercado mundial com relação a fornecedores de bancos de dados, relacionamos a seguir todos os vendedores de software que provêm processamento paralelo e/ou algumas características que podem ser especialmente interessantes para desenvolver data warehousing e sistemas de suporte à decisão. Alguns destes vendedores não têm, ainda, representatividade no mercado brasileiro.

Banco de dados para Data Warehousing

 

Adabas D

Software AG

Advanced Pick

Pick Systems

Broadbase Server

Broadbase Information Systems

DB2

IBM

Fast-Count DBMS

MegaPlex Software

HOPS

HOPS International

Microsoft SQL Server

Microsoft

MK Platform

Synergistics Services Group

Model 204

Computer Corp. of America

NonStop SQL

Tandem

Ngram Transform-DB

Triada

Nucleus Server

Sand Technology Systems

OnLine Dynamic Server,

Extended Parallel Server

Informix

OpenIngress

Computer Associates

Oracle Server

Oracle

Rdb

Oracle

Red Brick Warehouse

Red Brick Systems

SAS System

SAS Institute

Sybase IQ

Sybase

Sybase SQL Server, SQL Server MPP

Sybase

SymfoWARE

Fujitsu (Japan)

Teradata DBS

NCR

THOR

Hitachi

Time Machine

Data Management Technologies, Inc.

Titanium

Micro Data Base Systems, Inc.

Unidata

Unidade, Inc.

UniVerse

VMARK

Vision

Innovative Systems Techniques, Inc

WX9000

White Cross Systems Inc.

  Fonte: http://pwp.starnetinc.com/larryg/database.html  

Referências Bibliográficas

WATERSON, Karen. Attention, data-mart shoppers. Byte, Peterborough, v.22, n.7, p.73-78, July 1997.

WELDON, Jay-Louise Warehouse Cornerstones. Byte, Peterborough, v.22, n.1, p.85-88, Jan. 1997.