Departamento de Informática (UM)

Página de Unidade Curricular 🇬🇧

DesignaçãoCódigoCursoRegimeRegente

Introdução ao Python para Análise Lexical e Textual

16967 [ML29ML2900007484]

Mestrado em Humanidades Digitais [MHDIG]

S1

José Augusto Domingues Fernandes Lima

Objetivos

Esta unidade curricular oferece uma introdução teórica e prática ao Processamento de Linguagem Natural. Em cada uma das partes são estudados fundamentos teóricos e apresentado um conjunto relevante de áreas de aplicação destes conhecimentos.

Programa

1. Python:
1.1. tipos de dados, estruturas de controlo, funções;
1.2. input/output, ficheiros;
1.3. uso de módulos; repositório pypi; comando pip;
1.4. criação de scripts.
2. Processamento de linguagens baseado em padrões:
2.1. expressões regulares;
2.2. extração de informação a partir de textos;
2.3. conversão simples de formatos;
3. Introdução aos modelos de língua natural:
3.1. spacy (ou análogo);
3.2. anotadores morfosintáticos (taggers, treetaggers); Gramáticas de dependências;
3.3. treebanks;
3.4. ferramentas ligadas a dicionários e terminologias.
4. Processamento simples de documentos estruturados.

Bibliografia


Friedl, J. (2006). Mastering Regular Expressions. California: O’Reilly Media.

Natural Language Toolkit (NLTK). Disponível em: www.nltk.org.

Rodrigues, M. & Teixeira, A. (2015). Advanced Applications of NLP for performing information extraction. Springer.

Resultados da aprendizagem

Pretende-se que os estudantes sejam capazes de:
- fazer pequenos programas em Python;
- aplicar conceitos vários ligados ao Processamento de Linguagem Natural;
- extrair informação usando expressões regulares;
- escrever pequenos programas guiados por padrões;
- usar algumas ferramentas típicas de Processamento de Linguagem Natural para resolução de problemas específicos.

Método de avaliação

Avaliação:
a) 2 trabalhos práticos: 60%;
b) 1 teste escrito: 30%;
c) vários trabalhos de casa: 10%.


Funcionamento

Turno: TP 1; Docente: José Augusto Domingues Fernandes Lima; Dep.: DI; Horas: 30.

[ Outras UCs do Departamento ]