Neste documento descreve-se o trabalho realizado pelo autor na sua tese de doutoramento.
O trabalho teve duas grandes linhas orientadoras e de motivação. A estruturação de documentos, como a maneira de os tornar mais "ricos" e mais "vivos" e a especificação da semântica dos documentos, desde a aparência visual até à interpretação (significado) do seu conteúdo como um meio de melhorar a qualidade na produção documental electrónica. No fim, estas duas linhas acabaram por convergir na elaboração de um novo modelo de processamento documental.
As vantagens dos documentos estruturados foram apresentadas e os passos para a implementação de um sistema de produção de documentos estruturados foram descritos.
Depois, apresentou-se o conjunto de necessidades e requisitos actuais que se podem colocar a um sistema destes e analisou-se aquilo que se designou por "semântica dos documentos". As necessidades identificadas estão relacionadas com o problema da qualidade de conteúdos na publicação electrónica. A qualidade em publicações electrónicas pode ser analisada segundo vários parâmetros, desde o aspecto visual, o linguístico e literário, à correcção da informação (significado, semântica). A tecnologia existente permite de alguma forma automatizar e normalizar todos estes aspectos, excepto o último. Foi no desenvolvimento de uma solução para este problema que se centrou esta dissertação: como adicionar semântica estática (condições contextuais ou invariantes) aos documentos e como processar esta semântica estática de um modo integrado com a tecnologia existente.
Foram apresentadas duas vias para a solução da especificação e processamento da semântica estática, a primeira segue uma aproximação via modelos abstractos, a outra, uma aproximação via gramáticas de atributos.
As duas abordagens surgiram em alturas diferentes e seguiram duas direcções diferentes. Enquanto na abordagem com modelos abstractos optamos por definir modelos específicos (deriva-se o modelo do DTD), na abordagem com gramáticas de atributos construímos a representação abstracta habitual para um documento, o grove e assumimos a existência de uma máquina virtual que trabalha sobre o grove com quatro funções de travessia.
A primeira abordagem revelou-se mais fraca porque:
o analista tem que especificar as restrições em CAMILA (tem que conhecer mais uma sintaxe)
a especificação de restrições está dependente do modelo (este é específico)
as travessias da estrutura (uma vez que esta é específica) têm que ser especificadas em CAMILA pelo analista.
Todas estas razões não vão contra a metodologia utilizada (especificação via modelos abstractos) mas sim contra a utilização dela (modelo específico, processamento específico).
A segunda abordagem resultou muito melhor porque:
a informação é sempre carregada na mesma estrutura abstracta, o grove
a linguagem definida pelo autor e na qual são especificadas as restrições tem uma sintaxe orientada à manipulação do grove, bastante simples e acessível
o analista não precisa de programar nenhuma travessia ou outro tipo de processamento sobre o grove; o processador da linguagem de restrições traduz estas para instruções de uma máquina virtual que tem nela implementadas todas as travessias e processamentos necessários.
Da implementação desta segunda abordagem resultou o sistema S4, um sistema de processamento documental que integra e implementa as ideias defendidas: especificação de sintaxe, de estilo e de semântica. Como já foi referido (Capítulo 9), o S4 está ainda num estado embrionário de implementação: existe um protótipo do editor de DTDs; existe um protótipo do editor de estilos; a linguagem de especificação para as restrições foi definida nesta dissertação. Nos próximos tempos, vai-se lançar um novo projecto de implementação do S4, onde se irão combinar os dois protótipos existentes e adicionar o terceiro componente para tratamento das restrições (editor + processador).
Neste momento, está em desenvolvimento uma terceira abordagem resultante da experiência prática que o autor tem vindo a adquirir com o desenvolvimento de projectos reais nesta área. Esta abordagem passa pela utilização de um motor de transformação "Open Source"; as restrições são especificadas na linguagem definida pelo utilizador e o motor é alterado para que durante a travessia do documento teste se há restrições por calcular; se houver, processa-as e faz depender o resto da execução do resultado desse processamento.
Depois de se ler esta dissertação (apêndices incluídos), é fácil concluir que esta é uma área em permanente ebulição e que novas linguagens e metodologias surgem a cada dia que passa. Porém, há duas etapas do ciclo de vida dos documentos que não têm tido a atenção das outras, e que são: a análise e o armazenamento.
Relativamente à análise, as metodologias vão aparecendo [MA96]. O mesmo não acontece com ferramentas que as implementem (ferramentas visuais para especificação de estrutura, motores de inferência gramatical): são quase inexistentes! Esta é portanto uma linha de investigação em aberto que o autor pretende explorar no futuro e se possível integrar resultados daí resultantes no S4.
Em relação ao armazenamento, apesar da grande variedade de produtos existente [DuC98], a verdade é que nenhuma das equipas de desenvolvimento por detrás deles expôs como é que o seu sistema armazena os documentos, que mecanismos implementou para tirar partido da sua estrutura, etc. Isto leva-nos a crer que as suas soluções poderão ser soluções de implementação e não metodologias que possam ser aplicadas genericamente. Há aqui, portanto, trabalho a desenvolver, que tipo de base de dados utilizar, como criar os índices de modo a tirar partido da estrutura dos documentos, que mecanismos de endereçamento utilizar, etc. É claro, que o S4 também irá, no futuro, necessitar de um sistema de armazenamento, pelo que este trabalho de investigação deverá também ser integrado no projecto global do S4.
O S4, por sua vez, será integrado com outras linhas de investigação relacionadas, tais como: criação e manutenção de catálogos para documentos estruturados, thesaurus e encicolpédias electrónicas. Este novo projecto de investigação, do grupo de investigação onde está integrado o autor da presente dissertação, será designado por Scriptorium.