Data Warehouse - Banco de Dados
Autor: Carlos Alberto Sowek - GPT
DATA WAREHOUSE – BANCO DE DADOS
Sobre Data Warehouse já tivemos bastante informações, sabemos de sua importância, da necessidade do envolvimento da organização neste processo, os custos e o tempo envolvido e as formas para sua construção, itens que estão de forma resumida colocados na fig.1.
Data Mart | Data Warehouse | |
Tamanho | Em média 50 GB; Possível até 250 GB | Muitas vezes Terabytes ou mais |
Propósito | Área por assunto específico | Repositório da organização |
Como iniciar | "Bottom-up" | "Top-down", visando formar o modelo da organização |
Controle | Departamental | Sistema de Informação |
Limite de tempo | 3 a 6 meses | 1 até 2 anos |
Custo | De R$10.000 a R$1.000.000 | Milhões de reais |
Fig.1: Data Mart ou Data Warehouse.
Neste artigo vamos dar ênfase na questão dos Sistemas Gerenciadores de Banco de Dados (SGBD) onde vão estar os dados armazenados do ambiente de Data Warehouse.
Banco de dados relacionais são mais flexíveis quando eles são usados com uma estrutura de dados normalizada. Em uma estrutura normalizada, estruturas de dados não são redundantes e representam as entidades e relacionamentos básicos descritos pelo dado (ex: produtos, vendas). A performance dos tradicionais SGBDR é melhor para "queries" baseadas em chaves do que as "queries" baseadas em conteúdo.
Para suportar warehouse para grande volume são necessárias aplicações OLAP (On-Line Analytical Processing). Vendedores têm adicionado novas características nos tradicionais SGBDR. Estes, assim chamados super relacional, incluem características de suporte para hardware de banco de dados especializados, assim como a máquina de banco de dados da Teradata. Características de super relacional também suportam extensões para formatos de armazenamento e para operações relacionais (oferecidas por vendedores como Red Brick) e esquemas de indexação especializada, como aquelas usadas pelo Sybase IQ. Estas técnicas podem melhorar a performance na recuperação baseada em conteúdo por "prejoining" de tabelas usando índices ou através do uso de listas completas de índices invertidos.
Na figura 2 colocamos algumas características de banco de dados e algumas das funções que eles suportam.
Características/ Funções | Relacional | Super Relacional | Multi Dimensional | Objeto Relacional |
Estrutura normalizada |
x |
x |
x |
|
Tipos de dados abstratos |
x |
|||
Paralelismo |
x |
|||
Estruturas Multidimensionais |
x |
x |
||
"Drill-down" |
x |
x |
||
"Rotation" |
x |
x |
Fig.2: Como DBMS são comparados.
A limitação de ambos SGBDR (Sistemas Gerenciadores de Banco de Dados Relacional) e MDDB (MultiDimensional Database) é a falta de suporte para tratar tipos de dados não convencionais, assim como imagens, documentos e "clips" de vídeo/áudio. Se necessitar destes tipos de objetos em seu Data Warehouse, olhe para um SGBD objeto relacional. Focado no valor do dado armazenado muitos sistemas de banco de dados podem acomodar estes tipos de dados somente com algumas extensões baseadas na referência, assim como ponteiros para arquivos contendo os objetos. Muitos SGBDR´s armazenam dados complexos como BLOBs (Binary Large Objects), neste formato os objetos não podem ser indexados, classificados ou pesquisados pelo servidor.
IBM, Informix, Oracle e Sybase oferecem versões que suportam operações paralelas. Software paralelo faz "splits" de consultas, "joins" em multiprocessadores e rodam estas operações simultaneamente para prover performance. Paralelismo é requerido para melhorar a performance em grandes servidores MPP e SMP clustered. Isto não é ainda uma opção para os MDDB e SGBD objeto relacional. Uma arquitetura que requer plataforma de servidores paralela é difícil para criar e manter com sucesso.
Na figura 3, mostramos alguns tipos de ambientes e o tipo de arquitetura que podem ser escolhidas, tudo depende de quanto você tem para investir nesta tecnologia. A princípio pelo seu volume de dados inicial pode-se começar com o que tem disponível, e a medida que o ambiente vai crescendo em volume e em acesso, deve-se estar preparado para a ampliação neste ambiente de Data Warehouse.
Para estes ambientes .... | Escolher .... | |||||
Requisitos do Negócio | Ambiente do Usuário | Sistemas Suportados | Arquitetura | Server | DBMS | |
Escopo: departamental Uso: análise de dados | Pequeno Local único | Local mínimo Central médio | Consolidada | Um processador Ou SMP | MDDB | |
Escopo: departamental Uso: análise de dados e informações | Grande, análise para um local, informações para usuários espalhados | Local mínimo Central médio | Camadas: Detalhes para central Sumário p/ local | SMP p/ central SP ou SMP p/ local | SGBDR p/ central MDDB p/local | |
Escopo: empresa Uso: análise de dados e informações | Grande, Geograficamente Disperso | Central forte | Centralizada | SMP | Objeto relacional com suporte a Web | |
Escopo: departamental Uso: exploratório | Pequeno, poucos sites | Central forte | Centralizada | MPP | SGBDR com suporte paralelo |
Fig.3: Matriz de Decisão para Data Warehouse.
Relacionamos alguns nomes dos fornecedores de SGBD´s e o nome das suas soluções para DataMart, que vão desde suporte metodológico até parceria com outros fornecedores de produtos que complementam a implantação de um Data Mart:
- Oracle - Oracle DataMart Suite (com Oracle Express)
- Sybase - QuickStart DataMart (com Sybase IQ)
- Informix - Informix FastStart DataMart (com MetaCube)
- IBM - Visual Warehouse
Para dar uma visão mais ampla do que existe no mercado mundial com relação a fornecedores de bancos de dados, relacionamos a seguir todos os vendedores de software que provêm processamento paralelo e/ou algumas características que podem ser especialmente interessantes para desenvolver data warehousing e sistemas de suporte à decisão. Alguns destes vendedores não têm, ainda, representatividade no mercado brasileiro.
Banco de dados para Data Warehousing
Adabas D |
Software AG |
Advanced Pick |
Pick Systems |
Broadbase Server |
Broadbase Information Systems |
DB2 |
IBM |
Fast-Count DBMS |
MegaPlex Software |
HOPS |
HOPS International |
Microsoft SQL Server |
Microsoft |
MK Platform |
Synergistics Services Group |
Model 204 |
Computer Corp. of America |
NonStop SQL |
Tandem |
Ngram Transform-DB |
Triada |
Nucleus Server |
Sand Technology Systems |
OnLine Dynamic Server, Extended Parallel Server |
Informix |
OpenIngress |
Computer Associates |
Oracle Server |
Oracle |
Rdb |
Oracle |
Red Brick Warehouse |
Red Brick Systems |
SAS System |
SAS Institute |
Sybase IQ |
Sybase |
Sybase SQL Server, SQL Server MPP |
Sybase |
SymfoWARE |
Fujitsu (Japan) |
Teradata DBS |
NCR |
THOR |
Hitachi |
Time Machine |
Data Management Technologies, Inc. |
Titanium |
Micro Data Base Systems, Inc. |
Unidata |
Unidade, Inc. |
UniVerse |
VMARK |
Vision |
Innovative Systems Techniques, Inc |
WX9000 |
White Cross Systems Inc. |
Fonte: http://pwp.starnetinc.com/larryg/database.html
Referências Bibliográficas
WATERSON, Karen. Attention, data-mart shoppers. Byte, Peterborough, v.22, n.7, p.73-78, July 1997.
WELDON, Jay-Louise Warehouse Cornerstones. Byte, Peterborough, v.22, n.1, p.85-88, Jan. 1997.