Universidade do Minho

Relatorio

Trabalho Pratico de PED 2001/2002


Dezembro 2001







Processamento Estruturado de Documentos



E-mail: _Terror@mail.pt


E-mail: pas@netc.pt




Resumo:

A Informação é um bem precioso nos dias de hoje, o que tem originado o seu armazenamento em base de dados e ficheiros. Mesmo assim, existem locais onde essa informação ainda é guardada em papel, o que não facilita a sua consulta e gestão.


Sendo assim, torna-se necessário converter estes documentos em papel para outro suporte de informação como o formato digital.


Neste projecto realizado pelo grupo, iremos converter um documento do Arquivo Distrital de Braga para formato digital, não só através de um OCR mas também através do tratamento e geração dos índices de forma automática, de modo a facilitar a pesquisa, gestão e índexação de toda a informação deste tipo.


Ao longo deste relatório, iremos explicar todos os passos necessários à construção da versão digital do documento originalmente em papel.


Um dos maiores objectivos deste nosso projecto foi tentar o mais possivel abstrair da intervenção humana a conversão do documento, ou seja, tentar que a sua conversão seja o mais automática e independente possivel.





Índice

  1. Contexto e Análise do Problema

  2. Análise do documento e construção do DTD

  3. OCR do documento e geração de XML

  4. Melhoramento e Anotação do documento XML

  5. Scripts XSL de tratamento do XML e geração do HTML final

  6. Glossário

  7. Agradecimentos

  8. Bibliografia




Contexto e Análise do Problema

A consulta da informação em documentos de suporte físico é muito pouco versátil e pouco flexível, o que nao é nada recomendável na realizaçao de pesquisas. Visto que a sua indexação é estática, originando difículdades na adaptaçao de novos requisitos, sendo assim inevitavelmente a conversão desses mesmos documentos para suporte digital, uma vez que este mesmo formato facilita imenso a manutenção, pesquisa e gestão da informação contida.
Quando nos deparamos com grandes volumes de informação, como é o caso do Inventario dos Livros do Arquivo Distrital de Braga, este tipo de conversão torna-se muito útil e versatil, já que os seus documentos são sujeitos a muitas pesquisas originando uma degradacao acentuada dos documentos, tornando-se em muitos dos casos praticamente ilegiveis. Uma das grandes vantagens desta conversão de documentos, é a sua rapidez de consulta bem como minimizar o mais possivel os erros humanos.
Visto que os documentos guardados no Arquivo Distrital de Braga são muito antigos, é importante garantir que o seu manuseamento seja rapido, sendo o suporte digital uma solução viavel para garantir que a pesquisa desses documentos seja eficaz, nao pondo em risco a qualidade dos documentos originais.
O documento que nos foi prosposto converter é um excelente exemplo de documento que contem informação dificil de ser consultada em suporte fisico, visto que contem muitas referencias dentro do documento, o que o torna um bom exemplo para a sua digitalização e anotação.
Tendo em conta o conteudo do documento, verificamos que a simples digitalização do documento não acrescentaria grandes ou nenhumas vantagens, quer aos utilizadores, quer aos arquivos. Torna-se assim necessário enriquecer a sua apresentação, de modo a melhorar a pesquisa e estrutura do mesmo. É aqui utilizado as linguagens de anotação como o XML e outras linguagens de anotação e ferramentas associadas, que permitem enriquecer os documentos com informação extra que irá facilitar a geração de índices, pesquisa, e outras vistas do mesmo documento, potenciando assim a consulta do mesmo.
O projecto foi realizado em varias fases, desde a sua digitalização até a sua apresentação final em formato HTML. No tratamento de cada uma dessas mesmas fases deparamo-nos com problemas e implicações diferentes, cada uma requerendo abordagens teóricas e práticas diversas.
As secções seguintes do relatório vão tentar reproduzir o trabalho realizado nas varias fases do projecto. No final teremos um documento em formato digital (HTML), que se espera ser mais acessivel a qualquer tipo de utilizador, tornando-o fácil de consultar, organizar e pesquisar do que o original.


|Voltar ao Indice|




Análise do documento e construção do DTD

Na primeira fase do projecto analisamos cuidadosamente o documento original com o objectivo de construir um DTD que espelha-se a estrutura para o documento.
A análise do documento original Inventario dos Livros da Misericórdia desta Cidade de Braga existentes no Arquivo Distrital da mesma Cidade permitiu identificar a sua estrutura, todos os seus elementos e o modo como se relacionavam.
O DTD representa na mais do que um esquema representativo da estrutura do documento. Nele são identificados todos os elementos que iram estruturar o documento, bem como a sua caracterização atraves dos seus atributos. São estes os elementos que irão dar uma estrutura ao documento, e que vão permitir o seu manuseamento e tratamento.
Sao estes mesmos elementos que iram dar origem ao DTD (livro.dtd), que vai ser o modelo para futuros documentos digitais deste tipo.


|Voltar ao Indice|




OCR do documento e geração de XML

Depois de identificada a estrutura do documento, passamos à digitalização do mesmo, para tal fizemos o scanning das varias páginas do documento original (fornecido pelo docente José Carlos Ramalho) e o resultado foi um conjunto de paginas no formato RTF, no entanto este documento era muito pouco útil já que a sua formatação era deficiente e não trazia nada de novo ao utilizador.
Para futuro deste projecto ficou a elaboração de uma stylesheet XSL que gera-se automaticamente as nossas tags do DTD, visto que este passo foi realizado atraves da anotaçao manual.
Esta primeira fase de geraçao do documento foi conseguida com uma ferramenta denominada rtf2xml cuja objectivo é transformar os varios ficheiros RTF num documento XML (output.xml). Após uma observação exaustiva do xml gerado, deparamo-nos com uma anotação muito pobre e com elementos superflúos, que em nada contribuem para o enriquecimento estrutural do documento.
Para o ficheiro gerado fica-se de acordo com o nosso DTD, foi necessário converter a sua estrutura para uma estrutura que se identifica-se com o nosso DTD. Para tal realizamos manualmente a sua anotação, como é explicada no capitulo Melhoramento e Anotação do documento XML.


|Voltar ao Indice|




Melhoramento e Anotação do documento XML

Como foi referido no capítulo OCR do documento e geração de XML o ficheiro XML obtido era confuso e consequentemente pouco útil, pelo que foi necessário alterá-lo, para que obedecesse ao DTD por nos aí especificado. Sendo assim, anotamos manualmente o documento com os elementos do nosso DTD visto que o tempo necessario a realização desta tarefa era escasso para a realização de uma stylesheet que o gera-se automaticamente.
Foi assim que o documento XML (outputRTF.xml) adquirir a forma do documento XML final esperado.
Para testar a integridade do documento, isto é, se toda a anotação respeita o DTD do documento, bem como verificar o encadeamento das tags e seus atributos, ou seja, se todas as tags abertas têm a sua correspondente tag de fecho, utilizou-se a ferramenta XMLSPY 4.0, gentilmente aconselhada pelo Professor José Carlos Ramalho.
Esta fase foi muito importante em todo o projecto, visto que foi aqui que se deu toda a estrutura semântica ao documento. Neste ponto era necessário anotar correctamente todas as tags de identificação e classificação de documentos, nomes, datas, titulos, etc., para que ao ser tratado, o documento XML produzissse os melhores resultados, facilitando a consulta e pesquisa deste e doutros documentos dentro do mesmo.


|Voltar ao Indice|




Scripts XSL de tratamento do XML e geração do HTML final

Depois de correctamente anotado, ficamos com um documento extremamente rico em informações extra que lhe prestaram outra semântica e muito mais sentido, mas um documento XML anotado, por si só, não é muito relevante nem útil. É pois necessário trata-lo, extrair a informação importante e formata-la de modo atraente e de fácil manuseio para o utlizador final.
Para uma conversão facilitada do documento XML recorremos ao XSL, e criamos um conjunto de scripts, que percorrem o documento anotado e geram um conjunto de páginas HTML, em que a informação é disposta de forma amigável, e que permite uma fácil consulta e navegação de todo o documento, possibilidades que os documentos originais dificilmente, ou mesmo nunca, oferecem.
Para a obtenção de um bom resultado final, o trabalho foi dividido em várias partes (Capa, Indices e Texto do Documento), cada uma das quais implementada por uma script XSL.

Este ficheiro gerado, contém alem do titulo os elementos constituintes do grupo de trabalho.


Este indice é constituido por uma introdução, pelos varios capitulos existentes no documento e um indice onomastico.


A primeira script script2onomastico.xsl aplicada ao ficheiro XML outputRTF.xml, resultou num outro ficheiro XML onomastico.xml que contem informação ordenada por apelido relativa a cada nome encontrado no documento, bem como a sua localização no mesmo.

A segunda script onomasticoSREP.xsl aplicada ao ficheiro XML onomastico.xml, resultou num outro ficheiro XML onomasticoSREP.xml que contem a mesma informação do documento XML anterior, mas sem repetições de nomes.

Por fim, a ultima script onomastico2html.xsl aplicada ao ficheiro XML onomasticoSREP.xml, vai dar origem ao ficheiro HTML indonomastico.html com todos os indices gerados e tratados, bem como os respectivos links para o documento principal.


Esta script contem várias <xsl:template match="..." /> que gera partes do HTML.

As varias numerações (Alfabética, Romana e Numérica) são geradas automaticamente por templates que contém a instrução <xsl:number count="..." level="single" format="..." />.


Para exemplificar a geração automática das numerações no documento, apresentamos abaixo um exemplo com Numeração Romana.



Geração de items em Numeração Romana

<xsl:number count="textoitem"

level="single"

format="I-"/>



|Voltar ao Indice|




Glossário


DTD

Document Type Definition


HTML

HyperText Markup Language


OCR

Optical Character Recognition


RTF

Rich Text Format


XML

eXtensible Markup Language


XSL

eXtensible Stylesheet Language




|Voltar ao Indice|






Agradecimentos

Agradecemos a colaboração e apoio do Professor José Carlos Ramalho, que esteve sempre disponível para esclarecer as nossas dúvidas e dificuldades.


Também uma palavra de apreço e agradecimento às nossas namoradas, que toleraram, melhor ou pior, as nossas noitadas em frente ao computador, e a nossa má disposição quando as coisas não corriam como o esperado!


|Voltar ao Indice|





Bibliografia

|Voltar ao Indice|