Tecnologia OLAP

 Autor: Carlos Alberto Sowek - GPT   

Para termos um entendimento melhor sobre o que estarei falando, coloco a seguir algumas definições que envolvem este assunto:

Business Intelligence

  • é um processo de coleta, transformação, análise e distribuição de dados para melhorar a decisão de negócios;

  • sua infra-estrutura tecnológica é composta de data warehouses ou data marts, ferramentas OLAP, EIS, data mining, consultas e relatórios e software de visualização dos dados;

  • os bancos de dados são a infra-estrutura básica de qualquer sistema de business intelligence. São neles que vão estar armazenados os dados que serão transformados em informações competitivas.

Desktop OLAP, são produtos de preços baixos, ferramentas simples de OLAP que executam análise multidimensional e apresentação de dados carregados para máquina cliente de bancos de dados relacionais ou multidimensionais.

Denso é quando uma base de dados multidimensional apresenta uma percentagem relativamente alta de possíveis combinações das dimensões membros contendo dados com valores. Isto é o oposto de esparsa.

Drill down: método de exploração de dados detalhados que foram usados na criação de um nível sumarizado de dados. Os níveis de aprofundamento dependem da granularidade dos dados existentes no data warehouse.

DSS (Sistemas de Suporte a Decisão) são aplicações feitas para analisar grande quantidade de dados e executar uma variedade de cálculos e projeções.

EIS (Sistemas de Informações para Executivos) é categoria de aplicação e tecnologia para apresentar e analisar dados corporativos e externos para propósito de gerenciamento. Neste tipo de aplicação as funcionalidades de análise são muito limitadas.

Esparsa acontece quando uma pequena porção (arbitrariamente, menor que 0,1%) de célula de dados potencialmente atualizados está ocupando uma estrutura multidimensional.

HOLAP é um produto de OLAP híbrido que pode prover análise multidimensional simultaneamente de dados armazenados em um banco de dados multidimensional e em um banco de dados relacional.

MDDB ou MOLAP é um banco de dados multidimensional. Um produto que pode armazenar e processar dados multidimensionais.

Multidimensional é uma estrutura de dados com três ou mais dimensões independentes.

OLAP (On-Line Analytical Processing) é uma categoria de aplicações e tecnologias usada para agrupar, gerenciar, processar e apresentar dados multidimensionais com o objetivo para análise e gerenciamento.

Produtos OLAP, são os produtos capazes de prover análises rápidas de parte das informações multidimensionais. Análises ad-hoc devem ser possíveis ou com os próprios produtos ou com produtos de terceiros.

Refresh, processo de extrair dados de um ambiente e de mover para outro ambiente, substituindo os dados antigos pelos novos.

ROLAP é um produto relacional OLAP que possibilita a análise multidimensional de dados, agrega e armazena dados em um SGBDR. O processamento multidimensional pode ser feito dentro do SGBDR, ou na camada de servidor ou no cliente.

Star Schema é um esquema de base de dados relacional para representar dados multidimensionais. O dado é armazenado em uma tabela fato, com uma ou mais tabelas contendo informações em cada dimensão.

Snow Flake é uma variante do Star Schema com tabelas dimensão normalizadas.

Servidor OLAP é um engine de manipulação de dados multiusuário especialmente desenhado para suportar e operar estruturas de dados multidimensionais.

O termo OLAP foi descrito por E. F. Codd em 1992, através de 12 regras utilizadas para identificar as funcionalidades que os produtos assim especificados devem conter.

As doze regras de Codd são:

  1. Conceito de visão multidimensional;

  2. Transparência;

  3. Acessibilidade;

  4. Performance consistente de relatório;

  5. Arquitetura cliente/servidor;

  6. Dimensionamento genérico;

  7. Tratamento dinâmico de matrizes esparsas;

  8. Suporte a multiusuários;

  9. Operações de cruzamento dimensional irrestritas;

  10. Manipulação de dados intuitiva;

  11. Relatórios flexíveis;

  12. Níveis de dimensões e agregações ilimitados.

Além destas doze regras o Gartner Group acrescentou mais nove:

  1. Dados Arrays múltiplos;

  2. OLAP joins;

  3. Ferramentas para gerenciar as bases de dados;

  4. Armazenar objetos;

  5. Seleção de subconjuntos;

  6. Detalhe drill-down em nível de linha

  7. Suporte a dados locais;

  8. Reflesh incremental das bases de dados;

  9. Interface SQL.

No OLAP as respostas não são automáticas, trata-se de um processo mais interativo, onde o usuário faz perguntas, recebe informações, verifica um dado específico e faz comparações.

Inicialmente OLAP se colocava como uma das ferramentas para Sistemas de Suporte à Decisão dentre outros, como colocamos a seguir:

  • EIS (Executive Information System)

  • Conjunto de consultas fixas (com parâmetros);

  • Consultas pré-programadas por especialistas;

  • "O que é necessário saber neste momento".

  • Ferramentas de Consultas/Relatórios

  • Facilidade para fazer as consultas;

  • Muito orientada no uso de SQL;

  • "O que aconteceu".

  • OLAP

  • Facilidade para fazer as consultas;

  • Mostra os dados para análise;

  • "O que aconteceu e o porquê".

  • Ferramentas de Data Mining

  • Facilidade para fazer as consultas;

  • O usuário não conhece o que está olhando;

  • Mostra os padrões dos dados;

  • "O que é interessante. O que pode acontecer".

Hoje OLAP é um dos muitos componentes do Framework de Business Intelligence, assim como outras tecnologias de Suporte à Decisão, tais como: visualização de dados, data mining, data warehousing. Alguns fornecedores têm feito o esforço de incluir na sua linha de produtos estas tecnologias de suporte à decisão, outros fornecedores optaram por um produto aberto formando parcerias com fornecedores de produtos complementares.

Muitas outras tecnologias de suporte à decisão devem se integrar com a tecnologia OLAP, incluindo pacotes de análise estatística, sistemas de informações geográficas (GIS), e ferramentas de visualização de dados.

A maioria de vendedores de servidores OLAP oferecem add-ins para planilha eletrônica como opção de front-end, possibilitando, com isto, apresentar dados multidimensionais via planilha eletrônica. A principal vantagem desta abordagem é que ela combina a exibição flexível, a força em formatação e os cálculos para fins específicos das planilhas com o gerenciamento de dados, cálculos e performance da tecnologia de banco de dados multidimensionais. Os fornecedores de servidores OLAP só precisam produzir diferentes versões de seus add-ins para cada nova versão da planilha.

Além das planilhas eletrônicas como clientes OLAP existem três outras opções:

  • Produtos OLAP para o desktop.

Diversos fornecedores produzem ferramentas OLAP para desktop que são revendidas por outros provedores de aplicativos. Os provedores acrescentam valor, integrando dados de seus próprios aplicativos na estrutura de dados OLAP. Tipicamente, o fornecedor do aplicativo implementa funções para gerar os cubos de desktop quase automaticamente, usando os metadados do aplicativo, e então, revendem um padrão do produto OLAP para desktop. Outros fornecedores oferecem clientes OLAP em regime OEM.

  • Aplicativos especializados com servidores OLAP.

Alguns fornecedores obtêm o licenciamento de servidores OLAP para alguns de seus aplicativos. Normalmente é necessário acrescentar uma camada extra entre o componente servidor do aplicativo e o servidor OLAP. Na prática, uma quantidade significativa de esforço de desenvolvimento é exigida no servidor, no cliente e mesmo nas comunicações cliente/servidor para que o aplicativo funcione adequadamente.

  • Web browsers.

Tem havido uma grande divulgação sobre o uso de Web browsers para acesso a OLAP, mas ainda são poucos os sites em funcionamento com o uso de OLAP. Segundo alguns institutos de pesquisa o OLAP baseado na Web será a chave para aplicações na Intranet e deverá oferecer um caminho simples e barato no acesso ao data warehouse.

Data Mining e OLAP são tecnologias complementares. Em fato, muitas técnicas de data mining podem rodar mais efetivamente sobre bases de dados que estão organizadas multidimensionalmente. Entretanto, existe relativamente pouca integração entre produtos OLAP e data mining.

Para abrir os servidores OLAP para uma variedade mais ampla de desenvolvedores, existem dois padrões no mercado: o OLE DB for OLAP 1.0, uma API para interconectar clientes e servidores OLAP da Microsoft de codinome "Tensor". O outro padrão é o MDAPI (Multidimensional API) do Council OLAP (consórcio de fabricantes). O MDAPI busca o mesmo objetivo que o Tensor, mas de uma perspectiva mais aberta, suportando interfaces além daquela construída com objetos COM.

Mais recentemente foram lançados produtos ditos OLAP Server, fornecedores como Microsoft e IBM ( DB2 OLAP Server). Servidores de OLAP que permitem que os dados possam ser armazenados tanto em banco de dados relacionais como em multidimensionais.

Outros produtos que foram lançados são os Sistemas Gerenciadores de Bancos de Dados Relacionais com algumas capacidades OLAP incorporadas no próprio banco de dados, como no caso do IBM DB2 UDB e no caso da Microsoft SQL Server 7.0.

Com relação aos Servidores OLAP Multidimensionais que anteriormente tinham que fornecer todos os produtos de conexão às suas bases, hoje existem produtos front-ends que permitem conexão com estes servidores. A Arbor é a que tem mais ferramentas front-ends conectadas ao seu servidor OLAP Essbase, além da sua própria ferramenta que é o Wired, produto adquirido da AppSource.

Outra tipo de implementação que está ocorrendo no mercado é o de servidores de aplicação OLAP baseado em Java como alternativa para portar OLAP para acessar campos do banco de dados corporativo, reduzindo os requisitos de hardware do cliente.

Os fornecedores de OLAP devem, agora, confrontar-se com os problemas mais difíceis da utilização em massa. Seus aplicativos precisam se tornar mais fáceis de implementar, a integração de dados precisa deixar de ser um problema, o treinamento do usuário final precisa ser mínimo e o ajuste fino precisa ser automatizado. Aí o OLAP poderá se tornar tão comum quanto a planilha eletrônica.

Business Intelligence é uma nova fase onde as corporações devem comprar suites que contemplam a construção de um sistema completo, isto é, pacotes de business intelligence com elementos suficientes para endereçar às necessidades corporativas, tais como: escalabilidade, facilidade de uso e de gerenciamento.

Alguns fornecedores já apresentam as suas versões de "suites" para business intelligence:

  • Sybase - Warehouse Studio;

  • Informix - Decision Frontier Solution Suite;

  • IBM - Visual Warehouse for OLAP;

  • Oracle - Data Mart Suite.

Tipos de OLAP

Para permitir uma melhor classificação, as ferramentas OLAP estão divididas em ferramentas que utilizam um banco de dados multidimensional (MDDB) ou em ferramentas que armazenam os dados em bancos de dados relacionais. Outra divisão desta classificação seria o processamento realizado no cliente ou no servidor.

MDDB baseado em Servidor

Armazena todos os dados em um formato multidimensional, isto é, proprietário e não usa SQL, constituindo um ambiente muito fechado. Todo o processamento é realizado no servidor. Projetado para consultas complexas, traz mais performance, mas tem limitação de espaço de armazenamento de dados.

ROLAP baseado em Servidor

Armazena todos os dados em outros bancos de dados, geralmente relacionais. Os dados são recuperados do banco de dados quando solicitado pelo usuário e são gerados comandos SQL. Todo o processamento é realizado no servidor. É lento para consultas complexas mas é um ambiente mais aberto.

Há muita discussão para se saber qual o melhor ambiente. O ambiente multidimensional real normalmente tem uma performance excelente e necessita um servidor menor. O ambiente virtual tem menos duplicação de dados, é possível realizar o Data Mining no mesmo banco de dados, os dados são mais atualizados, e um banco de dados relacional pode armazenar mais do que um banco de dados multidimensional. Uma forte tendência que está surgindo no mercado é o banco de dados multidimensional híbrido.

HOLAP baseado no Servidor

O armazenamento pode ser feito tanto em um banco de dados normal ou no formato multidimensional. Todos os dados são apresentados como dados multidimensionais. Algumas vezes são gerados comandos SQL e todo o processamento é feito no servidor.

MDDB baseado no Cliente

Armazena todos os dados localmente no formato multidimensional. Todo o processamento é feito no cliente. O dado é periodicamente copiado para o banco de dados local.

ROLAP baseado no Cliente

Todos os dados são armazenados, local ou remotamente, em banco de dados externos à ferramenta. Todo o processamento é feito no cliente e são gerados comandos SQL.

Em geral, os produtos que acessam dados multidimensionais diretamente a partir do SQL pagam uma pesada penalização em performance, já que quase sempre há muito mais envolvimento de I/O do que de CPU. Sua performance de extração é geralmente de duas a quatro vezes mais lenta porque o SQL não é bom para a extração e manipulação de dados multidimensionais. Contudo eles são capazes de lidar com muito mais dados. Assim, se a questão principal é a performance, a tecnologia de banco de dados multidimesional permanece essencial. Mas se a capacidade é um fator limitante, um banco de dados deve conter pelo menos os dados do nível básico.

A arquitetura híbrida está se tornando a mais popular para os produtos atuais porque consegue combinar a capacidade das ferramentas ROLAP com a performance superior dos bancos de dados multidimensionais.

Existem produtos MOLAP cujo cubo é armazenado dentro do banco de dados relacional como tipo de dados BLOB, como é o caso do produto da Cognos.

Relação de produtos e seus fornecedores

Existem, no mercado, vários fornecedores de produtos OLAP cada um dentro de uma categoria, isto é, classificado como um tipo de produto MOLAP, ROLAP, HOLAP e Cliente/Servidor. A seguir relacionamos alguns fornecedores de produtos OLAP:

Fornecedores e os seus produtos para OLAP

Fornecedores

Produto

Tipo de Produto
Andyne Computing Ltd.

PaBLO

HOLAP Client
Applix TM1 Software

Applix TM/1

MDDB Server
Arbor Software Corp.

Essbase

MDDB Client
Fornecedores

Produto

Tipo de Produto
Brio Technology Inc.

Brio Query

MDDB Client
Business Objects Inc.

Business Objects

ROLAP Client
Cognos Corporation

PowerPlay

HOLAP Client
Comshare Inc.

Decision

MDDB Client
Dimension Insight

Cross Target

MDDB Server
Gentia Software

GQL

MDDB Client/Server
Hyperion Software Corp.

Pillar

MDDB Client/Server
IBM

DB2 OLAP Server

HOLAP Server
Information Advantage Inc.

Decision Suite

ROLAP Server
Informix

MetaCube

ROLAP Server
Microsoft

Microsoft OLAP Server

HOLAP Server
MicroStrategy Inc.

DSS Server / DSS Agent

ROLAP Client/Server
Oracle

Express

MDDB Server
Pilot Software

Pilot Analysis Server

MDDB Server
Platinum Technology

InfoBeacon

ROLAP Server
SAS Institute Inc.

SAS

MDDB Client/Server
Seagate Software IMG

Holos

HOLAP Client/Server
Speedware Corp. Inc.

Media/MR

MDDB Client/server
Sybase

PowerDimensions

ROLAP Server
WhiteLight Systems Inc.

WhiteLight

ROLAP Server

A seguir relatamos a história de lançamento de alguns produtos OLAP:

  • Em 1970, Express foi a primeira ferramenta multidimensional usada para aplicações de marketing. Foi adquirida pela Oracle em 1995;

  • Em 1982, Comshare System W foi a primeira ferramenta OLAP usada para aplicações financeiras;

  • Em 1984, Metaphor foi o primeiro ROLAP. Foi adquirido pela IBM em 1991;

  • Em 1985, Pilot Command Center foi o primeiro EIS Cliente/Servidor estilo OLAP;

  • Em 1992, Arbor Essbase primeiro OLAP Cliente/Servidor que usa a planilha eletrônica com front-end;

  • Em 1994, MicroStrategy DSS Agent primeiro ROLAP com um engine multidimensional;

  • Em 1995, Holos 4.0 primeiro HOLAP;

  • Em 1996, Business Objects primeira ferramenta que provém ao mesmo tempo relatórios relacionais e multidimensionais de cubos construídos dinamicamente no desktop de dados relacionais;

  • Em 1998 IBM lança o IBM DB2 OLAP;

  • Em 1998 Microsoft lança Microsoft OLAP.

Referência Bibliográfica

CARVALHO, Jackeline. OLAP sem segredos. Computerworld, Rio de Janeiro, v.6, n. 236, p. 28-31, 24 nov. 1997.

ELKINS, Steven B. Open OLAP. DBMS : tools & strategies for IS, San Mateo, v. 11, n. 4, p. 34-35, abr. 1998.

MANZONI JR., Ralphe. A epopéia do conhecimento. Computerworld, Rio de Janeiro, v. 6, n. 275, p. 1, 20-22, 26 out. 1998.

PENDSE, Nigel. As inovações do OLAP. Byte Brasil, São Paulo, v. 7, n. 3, p. 94-98, mar. 1998.

SISTEMAS ganham novas funções. LAN Times, São Paulo, v. 4, n. 36, p. 12-13, 13 out. 1998.