Apêndice B. Projectos desenvolvidos

Índice
B.1. Publicação Electrónica
B.2. Recuperação de edições esgotadas
B.3. Outros Projectos

Para se trabalhar e perceber bem o SGML é necessário estar envolvido em problemas reais. Só assim se consegue atingir um nível de compreensão desta norma suficientemente alto para apontar defeitos e propôr novas soluções. Desta necessidade de envolvimento surgiram uma série de projectos, uns grandes outros mais pequenos, dos quais se destacam os que a seguir se descrevem.

Os projectos encontram-se agrupados em dois grupos. O primeiro designado por "Publicação Electrónica" tinha o ponto de partida num formato digital não SGML. O segundo, designado por "Recuperação de edições esgotadas", tinha o seu ponto de partida numa versão em papel. Portanto, o tratamento das primeiras fontes e das segundas foi diferente como a seguir se expõe.

B.1. Publicação Electrónica

Em 1989-90, foi desenvolvida, no Arquivo Distrital de Braga, uma linguagem de anotação para a edição dos livros que então se tentava publicar [JAS89]. De nome HiTex [Per91], por basear a sua sintaxe no TeX e usar aquele processador como ferramenta de formatação e composição final, foi usada na anotação de vários livros.

Apesar do HiTeX ser uma linguagem de anotação anterior ao SGML (pelo menos na altura não havia conhecimento da existência deste), seguia já alguns dos bons princípios do SGML. No entanto, na pressão final para a publicação daqueles livros muito código procedimental foi-lhes acrescentado, tornando hoje a sua alteração e reedição muito difícies. Surgiu então a ideia, em 1997, de recuperar aqueles textos convertendo-os em documentos SGML para posterior publicação na Internet e papel. É disso que tratam os três projectos que se descrevem a seguir.

B.1.1. Publicação na Internet das "Memórias Particulares de Inácio José Peixoto"

Como o título indica, o objectivo final foi a publicação na Internet do referido livro. Como ponto de partida havia as fontes em formato HiTeX.

O projecto seguiu as seguintes fases:

  • Análise documental da obra e especificação do DTD.

  • Eliminação das anotações HiTeX redundantes (lixo de formatação) - com o objectivo de facilitar o processamento seguinte.

  • Especificação dos filtros para realizar a conversão HiTeX → DTD criado.

  • Especificação dos filtros para realizar a conversão SGML → HTML e a geração dos respectivos índices (geral, antroponímico e toponímico).

Uma vez que a mão-de-obra incluía alunos havia preocupações pedagógicas na realização do projecto. Foi por isso que não se utilizou um DTD existente e se desenvolveu um novo. A ideia era a de que os alunos cobrissem, o mais possível, todo o ciclo de desenvolvimento. No entanto, com o DTD e o documento anotado é sempre possível realizar a transformação do documento anotado noutro documento que respeite um novo DTD escolhido.

Para a construção dos filtros e conversores usaram-se duas bibliotecas Perl desenvolvidas para processar documentos SGML: SGMLS.pm e NSGMLS.pl.

Foi neste projecto que surgiu o primeiro problema de normalização. Havia que construir uma série de índices para permitir uma "navegação" inteligente no documento. No caso dos índices toponímico e antroponímico (haviam sido preparados à mão por historiadores), existiam muitos casos em que o nome no índice era diferente do nome no documento (o nome no índice seria o mais conhecido para o personagem em causa). Para estes casos aplicou-se a solução de normalização apresentada na Secção 7.1.2.

Os resultados visíveis deste projecto encontram-se disponíveis no site da Internet do Arquivo Distrital de Braga: http://www.adb.pt.

B.1.2. Publicação na Internet do "Index das Gavetas do Cabido da Sé de Braga"

Este projecto foi desenvolvido pela mesma equipa do projecto anterior e a estratégia foi semelhante. Os problemas encontrados foram os mesmos e as soluções seguidas também.

De momento, os resultados não se encontram disponíveis na Internet porque quando se procedeu à anotação do documento foram detectadas várias incongruências relativas a datas e a factos, o que podia ter sido evitado se o documento tivesse sido originalmente produzido com a tecnologia apresentada ao longo desta dissertação. O documento encontra-se, neste momento, a ser revisto pela equipe de historiadores por ele responsável.

B.1.3. Publicação na Internet do Livro "Ensaio Sobre as Minas de Joze Anastacio da Cunha"

Este projecto desenvolveu-se ao mesmo tempo que os outros dois. As metodologias aplicadas foram as mesmas. Surgiu no entanto um problema diferente: a matemática.

Joze Anastacio da Cunha foi um famoso engenheiro português que era muito requisitado para gerir a escavação de minas. Também era um bom construtor de armas e foram estas duas valências que o chamaram às cortes dos reis de França. Um dos documentos que escreveu é este livro que acaba por ser um manual para a escavação de minas. Por isso e devido à formação do autor, o livro apresenta diversas fórmulas matemáticas de complexidade variada, num total de 208. Era aqui que residia o problema.

A colocação da matemática no papel é um problema que vem apaixonando pessoas da área da computação há algum tempo. A matemática não segue uma ordem linear como o texto, mas sim uma distribuição espacial a duas dimensões. Em SGML, o problema ainda não foi inteiramente resolvido. Há, no entanto, algum consenso na utilização da linguagem de anotação MathML para a representação da matemática. O MathML é um DTD definido a partir do TeX (o TeX ainda é o sistema de processamento que melhor trata a matemática), a sintaxe é a do SGML, os comandos são os que já existiam no TeX.

Tendo as fórmulas devidamente codificadas em MathML surgia agora o problema de como produzir um resultado final para dispobilizar na Internet (lembrar que o HTML também não tem capacidades para representar matemática). Na altura, estabeleceu-se contacto com o grupo "alphaworks" da IBM. Eles estavam a desenvolver um "plug-in" para o Netscape, designado por Techexplorer, que permitia que, no meio de uma página HTML, surgissem fórmulas matemáticas anotadas segundo o MathML. O Techexplorer desenhava a imagem correcta da fórmula em tempo de execução na janela do browser.

Adoptou-se então esta solução. Instalou-se o Techexplorer nas máquinas que deveriam ser usadas para visionar o livro e no tratamento de conteúdos usou-se MathML para a codificação das fórmulas matemáticas.

Apesar de tudo e uma vez que se estava perante a versão inicial do Techexplorer só foi possível tratar 200 das 208 fórmulas. Motivo pelo qual o livro ainda não está disponível na Internet.

Actualmente, já existe uma nova versão do Techexplorer bastante mais evoluída e, nos próximos tempos, tentar-se-á de novo ver se as restantes fórmulas se podem tratar.