Publicação e Recuperação de Projetos de Pesquisas
Resumo
Muitas instituições de pesquisas deixam de oferecer de forma eficiente a principal matéria-prima para o desenvolvimento socioeconômico na era da globalização: a informação. Pelo menos três aspectos importantes, contribuem para o propósito de informar: a integração institucional, a multidisciplinaridade e a aprendizagem a partir do enfrentamento de problemas do cotidiano com informações rápidas e precisas. Nesse artigo, abordamos alguns problemas das instituições de pesquisa, que retardam o acesso e a difusão das informações científicas necessárias a este propósito e sugerimos soluções tecnológicas viáveis para minimizá-los. A idéia básica, consiste em utilizar marcações apropriadas para cada elemento de um projeto de pesquisa, meios de interação com estes elementos e ferramentas apropriadas para a difusão e recuperação das informações.
1. Introdução
Hoje em dia as informações científicas mais recentes, encontram-se no ambiente World Wide Web. O acesso aos recursos se tornaram tão comuns que já são realidade nas diversas instituições de pesquisa. O correio eletrônico, os sistemas de procura de informações, os grupos de discussões e as interfaces amigáveis dos navegadores, constituem poderosas ferramentas para busca do conhecimento. Em todo o mundo, uma grande quantidade de informações de pesquisas, tem sido publicada na World Wide Web num formato conhecido como HTML (Hypertext Markup Language). Este formato descreve como os navegadores devem apresentar o texto referente a um documento. A abordagem do HTML inibe um aspecto importante da publicação de informações, que é torná-las acessíveis. Enquanto ele se preocupa com a forma de apresentação dos dados, deixa de lado o aspecto mais importante, que é o significado dos dados. Nossa principal motivação é apresentar um estudo de caso real, da complexidade das informações contidas nos projetos de pesquisas e propor uma solução viável para publicação e acesso a estas informações. O Artigo está organizado como segue: Seção 2 apresenta a instituição em que foi realizado o estudo de caso e qual o objetivo do projeto. A seção 3 apresenta a estrutura das informações contidas nos projetos de pesquisa. A seção 4 comenta os problemas com a abordagem HTML e apresenta uma nova proposta. A seção 5 apresenta as considerações finais com algumas sugestões adicionais.
Palavras chaves: Projetos de Pesquisa, Publicação, Documentos Estruturados, Competitividade, Difusão de Tecnologia.
A Instituição
O presente estudo de caso foi realizado no Instituto Agronômico do Paraná - IAPAR que é uma instituição de pesquisa agropecuária cuja missão é gerar e difundir conhecimentos científicos e tecnológicos para o desenvolvimento sustentado da agropecuária paranaense. As pesquisas do IAPAR resultaram em variedades melhoradas, definição de tecnologias adequadas e a atuação em programas voltados para desenvolvimento sustentado da agropecuária paranaense. Desde sua fundação o IAPAR produziu uma grande quantidade de informações que foram se acumulando com o passar do tempo, em caixas de papéis cheias de documentos, relatórios técnicos e resultados de pesquisas. O objetivo deste projeto é tratar o grande volume de informações geradas por mais de vinte anos de pesquisas, a fim de que possa, eficientemente, ser disponibilizada para comunidade científica.
A estrutura das Informações
Os projetos de pesquisas contêm informações complexas dos mais variados tipos como: textos, tabelas, imagens, fórmulas matemáticas, fórmulas químicas, referências a programas, referências às atividades e outras. Além disso, eles fazem parte de uma estrutura hierárquica, em forma de árvore, que compreende, respectivamente, Programas, Projetos e Atividades. As informações, da forma que eram armazenadas há mais de dez ou vinte anos, dificultavam a sua recuperação. Observe o documento da Figura 1.
Figura 1. Ficha de avaliação de resultados do projeto "Uso Potencial do Solo"
Mesmo utilizando técnicas avançadas de processamento de imagem, no intuito de tratar e recuperar o texto, ainda assim, a informação de que este documento é uma "ficha de avaliação de uma atividade do projeto de Uso Potencial do Solo" contendo nome da atividade, métodos e resultados alcançados, satisfatórios ou não, deveria ser evidenciada, para permitir uma recuperação mais precisa.
O HTML é uma tecnologia de ponta e tem mudado o mundo em que vivemos. O problema em publicar os projetos de pesquisa, gerando documentos no formato HTML, é que informações importantes são perdidas, no momento em que os dados são convertidos para este formato. A utilização de marcações "META" para evidenciar o título do projeto, autor, resumo, palavras-chaves e depois indexá-los em um servidor Web, facilitam e melhoram a recuperação das informações, mas, no entanto, os dados referentes às informações úteis de uso potencial, dos mais diversos elementos que compõem o projeto não são preservados.
Nossa proposta
Uma tecnologia emergente, capaz de lidar com essa complexidade dos projetos de pesquisa está no uso de linguagens de marcação livre, como a XML (eXtensible Markup Language). Diferentemente da HTML, na XML uma quantidade arbitrária de marcações pode ser criada, de forma que estas marcações evidenciem cada elemento que compõe o projeto de pesquisa, inclusive tipos de elementos como, fórmulas, variáveis, constantes, números, textos, e outras. A vantagem de se utilizar a XML está na flexibilidade de sua estrutura lógica. Um elemento de um projeto, como uma tabela, pode ser criado fisicamente como uma entidade separada, e então, fazer parte da estrutura lógica de vários projetos. Note que estamos falando de conteúdo e não de aparência de projetos de pesquisa, pois na XML podemos exibir um mesmo conteúdo de vários modos. Mas o grande ganho com esta proposta, está na reutilização e processamento dos elementos que compõem um projeto. O ideal seria que, ao visualizar uma fórmula matemática no texto de um projeto, pudéssemos interagir com essa fórmula, executando, visualizando seus resultados ou até mesmo fazendo simulações com a troca de valores das variáveis. Linguagens de marcações padronizadas para esta finalidade estão sendo projetadas e já são realidade. A Chemical Markup Language, (Linguagem de Marcação Química) e a Mathematical Markup Language, (Linguagem de Marcação Matemática), são exemplos de linguagens padronizadas. Ferramentas e applets de navegadores estão surgindo com a finalidade de dar vida aos elementos que compõem qualquer documento. Quando uma fórmula matemática é escrita em Mathematical Markup Language em vez de texto tradicional (com caracteres especiais), elas podem ser submetidas às ferramentas feitas especialmente para interpretar e executar esta linguagem, possibilitando a princípio, simulações e validações como uma caixa preta, apenas utilizando a fórmula, e depois, se necessário ou conveniente, visualizando os detalhes de como ela foi construída. Para finalizar o conceito, nossa proposta consiste em escrever, num primeiro momento, cada elemento do conteúdo de um projeto de pesquisa com marcações apropriadas àquele elemento, e então, adicionar cada um deles (ou referências a eles), em uma estrutura lógica maior, de marcação livre, formando o projeto de pesquisa como um todo. Um dos detalhes importantes para esta implementação está na elaboração de uma hierarquia de marcações. Essa hierarquia é necessária para que a árvore Programa, Projeto e Atividade de pesquisa, seja mantida. Isso pode ser conseguido através da análise de um programa de pesquisa, com vários projetos com várias atividades. Com estas marcações definidas, recursos adicionais da tecnologia XML, como as DTD’s – Document Type Definitions podem ser aplicados. Uma DTD vai garantir que os documentos XML dos projetos de pesquisa, sejam elaborados com a hierarquia correta. O documento XML abaixo, foi elaborado com base no documento da Figura 1. Note que as marcações são livres, mas aninhadas, formando o chamando, "Documento XML de boa formação".
As marcações de início e final de cada elemento, permitem que o seu conteúdo seja recuperado de forma segura, pois já é conhecido qual o tipo de informação que ele contém. O aninhamento dos elementos do documento XML faz com que a informação "ficha de avaliação de uma atividade do projeto de Uso Potencial do Solo" seja naturalmente mantida, o que não é evidente em um documento no formato de imagem, texto simples ou HTML. Se o mesmo documento fosse publicado em HTML a hierarquia de elementos estaria perdida porque o conjunto de marcações HTML é predefinido e apenas exibe o conteúdo de suas marcações no browser. Em HTML não se poderia criar uma marcação <PROJETO> ou <AVALIACAO> para evidenciar um conteúdo específico. Num segundo momento, podemos utilizar ferramentas de indexação e recuperação para documentos de marcações livres. Suponhamos o documento acima indexado com o Xdex [6]. Note que o elemento "nome" aparece dentro do elemento "projeto" e dentro do elemento "atividade". Nesta ferramenta, usando suas capacidades de índices, o usuário poderia procurar por todos os documentos NOME = "Uso Potencial do Solo" ou realizar uma pesquisa mais específica, adicionando detalhes no argumento de busca como:
AVALIACAOPROJETONOME = "Uso Potencial do Solo" ou ainda ATIVIDADE = "Levantamento detalhado de Solos de Cambara". Neste último, o conteúdo procurado não é referente a marcação "atividade", mas a procura será realizada entre as marcações "filho" de atividade.
Conclusão
Um propósito simplesmente além do de informar, seria não somente publicar as informações referentes aos projetos de pesquisa, mas torná-las vivas, oferecendo um mecanismo de interação com elas. Com essa interação, os pesquisadores podem validar elementos, reutilizar, abstrair novas idéias e tirar conclusões com mais segurança. Além disso, utilizar uma linguagem independente de plataforma, garante o intercâmbio de informações de forma padronizada e ágil. Para uma instituição, que tem como propósito informar, gerar tecnologias e produtos, a velocidade em adquirir informações e conhecimento é um fator determinante. Para esta instituição, publicar o grande volume de resultados de pesquisas com uma tecnologia emergente a nível mundial, valoriza seu patrimônio, divulga a instituição, traz divisas e aumenta potencialmente sua competitividade.
REFERÊNCIAS BIBLIOGRÁFICAS
1. BUSWELL, Stephen; DEVITT, Stan. Mathematical markup language (MathML™) 1.01 specification: W3C Recommendation. Disponível na Internet. http://www.w3.org/TR/REC-MathML. 7 jul. 1999.
2. EMBRAPA. Diretoria Executiva. Siger: Sistema de Informação Gerencial da Embrapa. Manual do usuário. Brasília, 1999. 146p.
3. McGRATH, Sean. XML: aplicações práticas. Rio de janeiro: Campus, 1999. 368p.
4. MURRAY-RUST, Peter. XML and the launch of chemical markup language (CML). Disponível na Internet. http://www.vei.co.uk/chemweb/library/ lecture2/abstract2.html. 4 fev. 1998.
5. PARANÁ. Secretaria de Estado da Agricultura e Abastecimento. Universidade do Campo - o que é. Disponível na Internet. http://celepar6.pr.gov.br/ucampo/
6. SEQUOIA SOFTWARE CORPORATION. Introducing Xdex - Powerful XML indexing made easy. Disponível na Internet. http://www.sequoiasoftware.com/ pr_8_30_99_1.html. 30 ago. 1999.