Data Warehousing

Autor: Carlos Alberto Sowek - GPT - Ramal 340

Na minha participação no congresso, tive a oportunidade de assistir as palestras sobre Data Warehousing (D. W.). Das anotações feitas, vou relatar uma das três apresentações que assisti.

Em nenhum momento das apresentações foi possível obter maiores informações sobre o assunto, pois o tempo da palestra era de apenas 45 minutos. Ao final do mesmo o palestrante era interrompido, deixando de apresentar a parte final de sua palestra onde tinha os casos práticos do uso de D.W. Decisão Passado Futuro Respostas Lentas Rápidas Foco Interno Externo (atender melhor) Riscos Moderados Altos(novos produtos) Metas Controladas Estratégicas(objetivos)

Neste artigo vou apresentar a palestra, Data Warehousing (Flávio A. Badiejro - Gerente de Produtos da Consist).

O palestrante fez uma introdução colocando que o problema ao longo dos anos sempre foi de disponibilizar o acesso às informações ao usuário final. Mostrou como tem sido feito nos últimos anos.



No caso do EIS (Executive Information System) ou DSS (Decision Support System), atinge só o alto escalão da empresa (topo da pirâmide).



Uma tendência do mercado de negócios e o corte em camadas, atingindo aos vários escalões da empresa deste o baixo, médio e alto escalão.





O quadro a seguir mostra questões de decisão usadas no passado e no futuro quanto ao uso das informações e dos aplicativos. 

 

Desisão Passado Futuro
Respostas Lentas Rápidas
Foco Interno Externo
(atender melhor)
Riscos Moderados Altos
(novos produtos)
Metas Controladas Estratégicas
(objetivos0


Os desafios que as empresas vão enfrentar nos próximos anos são:

* globalização;
* competição;
* complexidade;
* reengenharia.

Segundo Bill Gates, todo mundo deve ter o poder na ponta dos dedos. Daí sugere-se que EIS seja definido como:



O que é um Data Warehouse. Segundo Willian H. Inmon (considerado o pai do D.W.), a definição é:

“Data Warehouse is a :

o subject-oriented
o integrated
o nonvolatile
o time-variant

collection of data en support of management´s decisions”.

Segundo o palestrante podemos considerar D.W. como orientado a assuntos. D.W. define um novo conceito de modelagem dos dados, como verificamos no exemplo a seguir:

Isto mostra que é necessário integrar os dados que estão representados de maneiras diferentes nos vários locais onde estão armazenados. Para a informação ser confiável deve-se limpar os dados.



A seguir é mostrado o dado no ponto de vista do Operacional e no uso de D.W.

 
Operacional D. W.
Atualizado Somente para leitura
Bloqueio de registro Registro não bloqueado
Normalizado Desnormalizado
Relatórios estruturados Dados Surfing
Transação Informação
Atual Históric

Quando se fala em D.W. se fala em Terabytes de dados, isto é algo a ser considerado.



As diferenças variam com o tempo de sobrevida do dado.

D.W. é a distribuição dos dados de forma completa em tempo hábil às pessoas que tomam decisão. O cliente deve estar ciente de algumas questões: quais os produtos mais vendidos; ciclo de vida do produto; retorno do investimento. Ganha sempre o melhor e aquele que esta na frente do concorrente.

O palestrante coloca que D.W. é uma promessa bonita, pois mostra os dados com qualidade e o usuário gerencia as suas consultas. Mas D.W. não é um produto, deve ser construído empresa por empresa. Cada empresa trabalha de forma diferente uma da outra. A chave do sucesso é o planejamento e a metodologia utilizada.

Existem 3 visões para o planejamento:

1) visão estratégica
2) conceitual tática
3) implementação incremental

1) Onde a empresa quer chegar, qual o objetivo.

* aumentar a participação no mercado;
* reduzir custo de mala direta;
* valores, números para qualificar, saber no final se o projeto deu certo.

2) Sabendo onde a empresa quer chegar, definir ambiente e tecnologia a ser usada. Determina a infra-estrutura de arquitetura.

* componentes tecnológicos
* staff (pessoas)
* avaliar as estratégicas tecnológicas
* avaliar ferramentas para entrada de dados, metadados, transformação, banco de dados, ferramentas de acesso, consultas, OLAP, Data Mining, etc.
* hardware.

3) Começar pequeno pensando grande. É difícil investir grande capital pois o retorno é demorado. Usar a questão metodológica, de 3 em 3 meses mostrar resultados parciais através de pequenos Data Mart´s (mercados de dados para uso departamental).

* estimar os volumes;
* definir as ferramentas de acesso;
* inicializar com piloto (Data Mart) numa área dentro da empresa com melhor retorno;
* gerenciar expectativas do usuário, não prometer coisas que não possa cumprir.

A seguir são feitas considerações sobre algumas ferramentas a serem utilizadas para se construir um ambiente de D.W.

1) Extração e carga de dados
- pouco volume
- grande volume (tempo muito grande para processar)
produtos:

Carleton Corporation
Prism
Platinum Passport
Prism Wrehouse Manager
InfoPump

2) Transporte dos dados
- via FTP, via TCP/IP
- certa prioridade de alimentação

Produto: Source Point (automatiza o transporte. Executa as tarefas em paralelo obtendo com isto maior rapidez).

Comentou-se que para limpeza dos dados, talvez exista um produto da Platinum, ou será necessário fazer programas para isto.

3) Modelagem e analise dos dados

Foram apresentadas duas maneiras para executar a modelagem e análise dos dados, segundo os autores:



William H. Inmon
Análise de estabilidade, análise de acessos, variantes de tempo, tipo de bases de dados.

Vidette Poe, Ralph Kimball
Star Schema & Snowflake



Quando usar uma técnica ou outra, deve-se analisar:

* necessidades do usuário;
* performance;
* manutenção.

4) Acesso aos dados




EIS - ferramenta usada para conjunto de queries fixas (com parâmetros)

OLAP - tem liberdade de consulta maior Data Mining - descobrir informações que estão escondidas na sua base de dados

Quem vai utilizar as ferramentas:

* EIS - pouca sofisticação, poucos usuários, alto escalão;
* OLAP - médio escalão;
* Data Mining - poucos usuários, requer sofisticado nível técnico.

OLAP permite fazer análise da informação por várias perspectivas, ex: limitando a pesquisa por ano (quanto vendeu num determinado ano). Esta forma de acesso apresenta ferramentas em três níveis:

* MOLAP - Multidimensionais(solução proprietária)
* ROLAP - Relacionais
* LOLAP - Local (uso em simulação)

MOLAP tem melhor performance, mas tem limite, de acordo com a complexidade da consulta e o volume de dados.

ROLAP é para grandes volumes de dados, tem limite a nível de dimensões. É considerado como tendência pelo Gartner Group.

Produtos: DSS Agent Decision Suitte O palestrante encerrou a apresentação neste ponto, não pôde apresentar os produtos que a Consist usa para fazer D.W. e nem apresentar os casos práticos.