Porquê este apêndice? Não é esta tese igual a tantas outras?
A resposta poderia ser sim, noutro local ou noutra fatia temporal, mas neste caso é não. Neste momento, é provavelmente a primeira tese a ser produzida de raiz na língua portuguesa usando a tecnologia SGML. Como tal, é importante que fiquem registados os vários passos dados na realização deste objectivo.
A publicação desta tese constituiu em si um pequeno projecto cujas etapas se enumeram a seguir:
Análise da estrutura da dissertação e definição do DTD.
Escolha do editor estruturado de SGML.
Escolha de um sistema de formatação: stylesheets, processadores, conversores, ...
Escolha do formato de saída, HTML, RTF, TeX/PDF, a ser produzido para visualização e impressão do documento.
Definição de uma estratégia para o desenvolvimento (escrita e impressão) modular da tese.
Nas secções seguintes, descreve-se com mais detalhe cada uma das etapas.
O primeiro passo de um projecto deste tipo consiste sempre na análise do tipo de documento que se quer desenvolver para se decidir pela escolha de um DTD já existente para essa classe, ou pela criação de um novo. Uma vez que criar um DTD pode vir a ser uma tarefa árdua, é sempre aconselhável procurar um DTD já desenvolvido que sirva as necessidades pretendidas no momento, até porque juntamente com o DTD é, normalmente, desenvolvido um conjunto de ferramentas que podem fazer ganhar tempo noutras etapas do projecto.
Em 1998, David Megginson publicou uma análise que fez aos DTDs disponíveis no mercado [Meg98]. Nessa análise, ele catalogou cada DTD seguindo alguns parâmetros, nomeadamente: facilidade de aprendizagem, facilidade de utilização e facilidade no processamento. A facilidade na aprendizagem é medida em função de alguns parâmetros como o tamanho (número de elementos e atributos), consistência e o ser ou não intuitivo. A facilidade na utilização está quase exclusivamente relacionada com a organização em níveis do DTD (corresponde ao esforço físico de criação de um contexto, instanciação de atributos, ...). A facilidade no processamento está muito relacionada com os dois items anteriores: diversidade de contextos, previsão, análise do DTD.
A análise de mercado de Megginson reduziu o domínio de escolha a cinco possibilidades, que correspondem às maiores percentagens de utilização por parte da indústria de publicação electrónica:
Este devia ter sido o DTD da indústria da publicação electrónica. Foi desenvolvido por um grupo de especialistas da publicação electrónica para a preparação e anotação de manuscritos electrónicos. Resultou num DTD de dimensão considerável e com grande complexidade o que aliado a algumas incapacidades como a falta de consenso na anotação da matemática fez com que não tivesse grande aceitação.
DTD utilizado e desenvolvido inicialmente pela IBM. Hoje é um dos mais difundidos, com direito até a publicações sobre a sua concepção e parametrização [WM99]. Entre muitos outros é utilizado pela IBM, pela O'Reilly e na maior parte das publicações SGML científicas.
Foi um dos DTDs a ter em consideração, na implementação desta tese.
Este DTD resulta de um esforço de cinco anos por parte de membros da comunidade académica e de investigação. Iniciado em 1987, o projecto desenvolveu-se à custa da vontade de pessoas ligadas às áreas de humanísticas, ciências sociais e letras, que utilizavam computadores. Este grupo percebeu as vantagens de ter um mesmo conjunto de anotações para a sua produção documental: reduzir a diversidade de conjuntos de anotações (DTDs) existentes e em uso, simplificar o processamento feito pelo computador e encorajar o intercâmbio de textos electrónicos.
O DTD foi sendo desenvolvido modularmente (segundo os autores seguindo o modelo da "Chicago Pizza") e com o decorrer dos anos foi engrossando a sua estrutura aumentando desta maneira o número de áreas de aplicação [SB94]. Hoje, dos DTDs mais utilizados é o maior e é a referência a utilizar pela comunidade de humanísticas, artes, letras e ciências sociais.
Também foi considerado na implementação desta tese.
Um dos primeiros grupos a adoptar o SGML como formato de base para a produção documental foi o exército americano. Exército e organizações governamentais investiram meios no desenvolvimento de DTDs para documentos como os manuais de manutenção de aeronaves e outro tipo de equipamento pesado. Desse esforço resultaram alguns bons DTDs. O que está aqui em questão é para a produção de manuscritos mas a falta de informação sobre a sua utilização é muito grande no domínio público.
No entanto, houve um mini-DTD desenvolvido por este grupo que se tornou uma norma: designado por CALS-TABLE-MODEL é um pequeno DTD incluído na maior parte dos outros para tratar a informação com estrutura tabular.
Como a produção documental para a Internet não pára de aumentar e, apesar de todos os avisos, a maior parte dessa documentação continua a ser produzida em HTML, este ainda é um dos DTDs com maior número de utilizadores [HTML4.0]. Por razões óbvias levantadas ao longo desta tese (mistura de conteúdo e forma, conjunto de anotações limitado, ...), este DTD não foi tido em conta na selecção efectuada.
Depois desta pequena exposição, não deverá ser difícil concluir que a escolha estaria entre o Docbook e o TEI. Foi uma decisão trabalhosa. Testaram-se ambos em vários documentos e com várias ferramentas. Destes testes resultaram as seguintes conclusões:
Ambos têm um tamanho considerável, o que tem algumas implicações na facilidade de utilização.
Há um maior suporte para o Docbook. Quase todas as ferramentas de SGML/XML trazem uma versão desse DTD, pronta a usar. Existe algum suporte para o TEI, mas a sua utilização nunca foi tão directa como a do outro.
Para o Docbook existem uma série de ferramentas de processamento mas, mais importante, existe um projecto a decorrer de desenvolvimento e aperfeiçoamento de um conjunto de stylesheets DSSSL.
No caso do TEI e reportando-nos à época em que se tomou esta decisão (1996/97), existiam apenas algumas scripts em Perl para o processar e o projecto de criação de stylesheets DSSSL estava ainda numa fase de estudo de viabilidade.
Dado que, a escolha teria que ter em atenção o que viria à frente, foi principalmente o último ponto (a existência de stylesheets DSSSL) que fez com que a escolha recaísse sobre o Docbook.