Tutorial DBFORUM`98 - Data Miming: Ferramentas e Técnica

Autor: Ricardo Shoiti Ikematu - GPT

Rick Van Der Lans

Com o crescimento exponencial da Internet, os usuários têm à sua disposição uma grande quantidade de informações e a tecnologia "Push" oferece meios de selecionar e disponibilizá-los conforme o interesse e a necessidade do usuário. Da mesma forma, só que com uma velocidade menor, as bases de dados vêm crescendo constantemente e a atividade de extrair informações relevantes para a organização está se tornando bastante complexa. A descoberta de conhecimento é uma forma de facilitar este trabalho.

Foram apresentados dois conceitos sobre a descoberta do conhecimento:

  • A descoberta de conhecimento em banco de dados é considerada a extração não trivial de informações implícitas, previamente desconhecidas e potencialmente úteis dos dados. Frawley, 1992.
  • A mineração dos dados é o processo de descoberta de novas correlações, padrões e tendências significativas por análise minuciosa de grandes porções de dados armazenados no repositório, usando tecnologias de reconhecimento de padrões e técnicas estatísticas e matemáticas. Gartner, 1995.

Há algumas diferenças entre OLAP e a descoberta de conhecimento.

O resultado de uma sessão OLAP são dados calculados, e a questão é conhecida mas não se sabe a resposta. O objetivo é a descoberta da razão de um problema conhecido. Para isto, é necessário conhecer a base de dados.

Na descoberta de conhecimento, o resultado da sessão de Data Mining é uma regra e a questão é total ou parcialmente desconhecida. Tenta-se descobrir uma nova oportunidade. Para isto, é necessário conhecimento da base de dados e, em muitos casos, conhecimentos matemáticos e estatísticos. A descoberta de conhecimento utiliza as técnicas de estatística, visualização, regras de Vindução (árvores de decisão), associação de regras de indução, redes neurais, lógica fuzzy e algoritmos genéticos. Com a descoberta de conhecimento (KDD - Knowledge Discovery in Database) podemos obter:

  • descoberta de associações - uma regra de associação é uma indicação de que existe um certo relacionamento entre fatos diferentes. Utiliza a técnica de regra de indução;
  • descoberta de clusters - um cluster é um grupo de entidades (coisas ou eventos) que tem características similares e que compartilha certas propriedades. Utiliza técnicas de redes neurais, visualização e k-nearest neighbours que medem a distância entre dois itens;
  • descoberta de classificações - uma classificação é um conjunto de regras usando atributos de entidades para descobrir outro atributo. Algumas vezes é referenciado como indução supervisionada. Utiliza técnicas de redes neurais e regra de indução;
  • descoberta de padrões seqüenciais. Utiliza a técnica de redes neurais; e
  • descoberta de regras de previsão.

Segundo o palestrante, devemos seguir os seguintes passos para a descoberta de conhecimento:

  • definir metas para o negócio e para o KDD;
  • selecionar os dados. Neste aspecto, o Data Mining pode ser trabalhoso para descobrir qual dado colocar ou incluir envolvendo linhas e colunas. Dados demais o trabalho de mineração será muito lento, dados de menos poder-se-ia chegar a conclusões incorretas ou não se chegar a conclusão nenhuma;
  • entender os dados - determinando valores estatísticos de colunas relevantes (média, mínimo, máximo) e relacionamentos entre colunas;
  • limpar os dados – pode haver duplicação de informações através de erro de digitação ou abreviações diferentes, dados fora do limite aceitável, valores omissos ou codificação inconsistente;
  • preparar os dados - arredondando preços, agrupando valores contínuos e transformando valores em binários quando possível. Se houver muitos detalhes a ferramenta pode não encontrar nada;
  • criar o modelo de Data Mining - selecionando várias técnicas de Data Mining, entender o significado e verificar a consistência do modelo;
  • realizar o Data Mining – que é a descoberta de regras;
  • interpretar os resultados;
  • monitorar o modelo de dados. As características dos dados estão mudando toda hora possibilitando novas oportunidades.

Foi comentado que o Intelligent Miner da IBM é o melhor produto do mercado de Data Mining. É um produto muito sofisticado e que utiliza várias técnicas, algumas das quais inovadoras. Seus concorrentes mais diretos são o SAS Enterprise Miner e o Darwin. Todos eles precisam de um suporte muito forte. Entre os menores foram mencionados o Clementine pela sua linguagem visual e o Data Engine que pode ser embutido nas aplicações do usuário. Foram disponibilizados dois tipos de classificações dos produtos: uma por tipo de usuário e outra pelo porte da ferramenta.

Classificação por tipo de usuário

Analistas

Usuários finais

Programadores
Data Mining Suite Alice DataEngine
Darwin BusinessMiner Intelligent Miner
DataEngine Clementine Omega (GAAF)
DataMind Scenario  
Data Surveyor    
Discovery Server    
Intelligent Miner    
Omega    
SAS    
Syllogic DMT    

Classificação por porte da ferramenta

Grande

Médio

Pequeno

Darwin

DataMind

Alice

Discovery Server

Data Minig Suite

Answer Tree

Intelligent Miner

Data Surveyor

BusinessMiner

Marksman

Omega

Clementine

SAS

 

 

DataEngine

Syllogic DMT

 

 

 

O Data Mining é um dos poucos mercados de informática que não é dominado pelos Estados Unidos. Conforme o volume das informações, a ferramenta pode trazer uma quantidade muito grande de relações que são óbvias para os seres humanos e o perigo é descartar no meio delas alguma informação importante. Escolher o escopo correto dos dados é de importância fundamental no resultado do trabalho. Descobrir a real razão da relação entre fatos diferentes pode não ser tão simples e levar um tempo considerável para identificá-la.

O palestrante chamou a atenção para alguns conceitos errados sobre o Data Mining. Na verdade as ferramentas de Data Mining não descobrem informações/conhecimento sem qualquer intervenção humana, não substituirá as ferramentas para OLAP e Data Mining não necessariamente precisa de um Data Warehouse. Ele apresentou também algumas conclusões interessantes. Para utilizar Data Mining são necessários diferentes conhecimentos: expert em banco de dados, expert em estatística/data mining e expert no domínio do negócio.

Muitos vendedores de Data Mining são pequenos ou muito pequenos, exceto a IBM. Por causa disto o suporte local é muito difícil e este conhecimento é difícil de se conseguir no mercado. A tendência é que grandes companhias com interesse em Data Warehousing e ferramentas OLAP comprarão empresas de ferramentas de Data Mining ou se associarão entre si. As ferramentas OLAP serão estendidas com capacidades de Data Minig.

Hoje, neste mercado, a troca para outras ferramentas não é um investimento perdido. Muitas ferramentas de descoberta de conhecimento não trabalham com banco de dados multidimensionais. Este mercado para ferramentas de mineração especializadas crescerá bastante e, vagarosamente as ferramentas de Data Minig tornar-se-ão mais agradáveis para os usuários finais. É importante lembrar que o conhecimento do dado ainda será necessário.