Capítulo 1. Introdução

Índice
1.1. A Tese
1.2. Estrutura da Dissertação

Se se observar de perto uma empresa, um estabelecimento de ensino, ou outra instituição pública ou privada, depressa se conclui que o produto de cada dia de trabalho resulta, directa ou indirectamente, na criação de documentos; cada membro de uma organização, na sua actividade diária, cria de alguma forma documentação. Pode ser uma carta, um memo, a planta de um edifício ou o manual de um produto. Quaisquer que sejam os documentos produzidos eles formam parte da história da instituição e são um importante componente da sua memória corporativa.

Algumas formas de informação são altamente estruturadas. De facto, algumas são tão estruturadas que permitem a sua representação numa forma tabular ou numérica. Informação sobre inventários, preços, empregados, é um exemplo deste tipo de informação. Hoje em dia, a maioria dos sistemas de gestão de empresas são desenhados para gerir informação relacional e muito estruturada (folhas de cálculo, BDs). Mas, surpreendentemente, estima-se que esta informação representa apenas 10% do total de informação disponível numa empresa. Assim surgem as seguintes questões: Que tipo de informação representa os outros 90%? Como se poderá tirar partido dela?

Estes 90% da informação correspondem a textos que são produzidos e circulam dentro da instituição. As metodologias relacionais são difíceis ou mesmo impossíveis de aplicar a texto. Pode-se então colocar a questão: Haverá alguma maneira de aceder ao potencial da informação mantida num formato textual? Se ele se mantiver numa forma simples, puramente sequencial, a solução parece difícil; a resposta recai, mais uma vez, na estruturação desses textos [Ken96].

Documentos estruturados são documentos que têm a sua estrutura explícita, as suas componentes estão identificadas. Se esta estrutura for definida formalmente, identificando as componentes e a maneira de a partir delas se construir o documento, torna-se possível estipular um conjunto de regras para a criação desses documentos. Por exemplo, as regras para um determinado manual podem estipular que o documento terá uma página de rosto, um índice e um prefácio; esta parte inicial deverá ser continuada por no mínimo quatro capítulos; cada capítulo deverá ter um título seguido de texto ou ter ainda esse texto dividido em secções. Essas secções poderão ter também a sua estrutura e assim recursivamente para todos os sub-elementos de cada secção.

A maioria dos textos produzidos numa empresa são estruturados ou não estruturados? A probabilidade de eles terem sido produzidos de acordo com um conjunto regras da empresa é muito grande. Isto faz com que eles tenham uma estrutura que lhes é inerente, o que não quer dizer que essa organização seja explícita.

Este problema, de tentar manter viva a informação correspondente aos 90% do património de uma instituição fornece a primeira motivação para este trabalho.

O segundo mote, vem de uma área relacionada: a publicação electrónica.

Nas últimas décadas, a Publicação Electrónica sofreu uma enorme evolução. O avançar da informática e das tecnologias a ela associadas tem levado a uma substituição gradual e efectiva do papel pelo suporte digital, magnético ou óptico (disquete, disco de computador, ou CDROM).

Nos últimos anos, a explosão da Internet (cada vez mais fácil e amplamente acessível), veio acelerar e aumentar ainda mais a produção documental em suporte digital, consolidando novos tipos e arquitecturas de informação: o hipertexto e a hipermedia [DD94].

Esta evolução trouxe com ela vários problemas e veio agravar outros já existentes. O mais grave foi e é, o da proliferação de formatos privados e a incompatibilidade de cada um deles face aos outros. Com a Internet e a banalização da produção de CDROMs, para além dos vários sistemas tradicionais de arquivo e processamento de texto, os utilizadores passam a precisar de manter os seus documentos em mais formatos e suportes. Um documento leva tempo a produzir, consome espaço de arquivo pelo que, se a sua reutilização não for possível, o seu custo aumentará ainda mais. Por estas razões, a produção documental deve ser inteligente, de modo a que os documentos produzidos se mantenham vivos (ao fim de vários anos, em diferentes sistemas e depois de várias versões do software que os produziu) e a que a sua reutilização, para os mais variados fins, seja possível.

Outro problema prende-se com a globalização da informação. Hoje a Internet é praticamente acessível a todos, tendo-se tornado um veículo apetecível para quem disponibiliza e para quem consome informação. Como resultado temos uma maior proliferação documental. Torna-se praticamente inviável colocar documentos puramente textuais na Internet. Os motores de pesquisa e de indexação teriam um trabalho infinito para procurar e encontrar fosse o que fosse. Neste contexto surgiram projectos como o "Dublin Core" [Hee96] ou o "TEI" [SB94] que visam resolver estes problema acrescentando meta-informação aos documentos. Meta-informação é informação sobre informação [Cap95], neste caso sobre documentos. Mais especificamente, trata-se de uma espécie de registo bibliográfico que se agrega a um documento de modo a disponibilizar facilmente informação como a data da sua criação, quem são os seus autores e até mesmo, uma memória descritiva do seu conteúdo.

Quando se fala de documentos e meta-informação, o "Dublin Core" é quase uma referência obrigatória. Isto resulta do facto de ter sido definido numa workshop que reuniu os especialistas nos mais variados ramos da informática e da meta-informação [WGMD]. No entanto, esta proposta de norma visa resolver apenas uma pequena parte do problema, o da localização de documentos na Internet. Não se preocupa com o seu conteúdo ou a sua estruturação, nem com a uniformização de formatos uma vez que aceita quase tudo desde Postscript [Postscript] a SGML [Gol90].

Recentemente, uma das áreas que tem registado significativos contributos e que muito tem evoluído é a da representação abstracta de documentos, ou de objectos com a forma de documento. Aqui os problemas começam logo pela definição de documento. Para algumas pessoas um documento é apenas um registo textual enquanto para outras pode ser muita coisa desde texto até um ser vivo. O esforço para normalizar este conceito tem sido enorme e normas como o SGML [Her94], o Hytime [DD94], o XML [XML] e propostas como o DOM [DOM] e o RDF [Bray98] estão a tornar-se familiares para muita gente e estão a ser seguidos e implementados pela indústria.

A Internet foi a grande responsável pelas recentes evoluções registadas na publicação electrónica e nos conceitos de documento e documento estruturado. Mais à frente, irá traçar-se o percurso dessa evolução, desde as suas raízes até aos dias de hoje.

Na próxima secção, apresentam-se as linhas de trabalho seguidas ao longo da presente dissertação bem como os contributos da mesma.

1.1. A Tese

Nesta tese, pretende-se analisar a tecnologia deste ramo de aplicação e ver de que modo é possível a sua aplicação no âmbito institucional de modo a tornar viável o acesso inteligente a toda a documentação produzida. Por outro lado, interessa também, ver até que ponto a tecnologia associada aos documentos estruturados pode ajudar a melhorar, normalizar e automatizar a publicação electrónica. Aqui, o esforço será especialmente dirigido para o controlo de qualidade na vertente associada à correcção de conteúdos.

Face às duas grandes linhas de motivação apresentadas, a existência de um vasto património documental que é urgente tornar acessível e, a melhoria do processo de publicação electrónica, a tese do autor é a de que a solução para estes dois grandes problemas passa pela utilização da tecnologia associada aos documentos estruturados.

Em muitos casos, a aplicação desta tecnologia resolve apenas parcialmente o problema e noutros, levanta novos problemas. É aqui que surge um dos contributos do autor, ao demonstrar conseguir resolver alguns problemas recorrendo à especificação da semântica estática. Contribui também com outras soluções para outros problemas menos graves como a normalização de conteúdos e a associação de tipos de dados a conteúdos.

São apresentadas duas vias para a solução da especificação e processamento da semântica estática: a primeira segue uma aproximação via modelos abstractos [Jon86], a outra, uma aproximação via gramáticas de atributos [Knu68].

No fim, uma das soluções é escolhida e integrada num sistema que sugere um novo modelo de processamento para documentos estruturados e que explora alguns paradigmas novos neste contexto que vão desde a análise da informação até ao seu tratamento. Nesta concretização, adoptam-se para os documentos metodologias utilizadas nas linguagens de programação como consequência de uma hipótese levantada pelo autor, da existência de um paralelismo entre o processamento de documentos e o processamento das linguagens de programação. Este novo modelo de processamento, é também enriquecido com a proposta de uma nova linguagem, definida pelo autor, para a especificação de semântica estática.

A dissertação inclui a apresentação dos passos seguidos na produção do seu próprio texto, uma vez que se adoptaram as soluções defendidas e nela apresentadas, terminando com a apresentação do S4, o sistema de processamento documental que integra e implementa as ideias defendidas ao longo da dissertação.