Título: Etiquetador Morfossintático Baseado em Cadeias de Markov de Tamanho Variável Aluno: Fábio Natanael Kepler Segunda, 17/05, 16h, sala 243A Resumo: A linguistica computacional é a parte da ciência da computação que trata dos problemas relacionados com o processamento da linguagem natural (falada ou escrita) por meio de computadores. Uma das questões fundamentais desta área é a da análise morfosintática, que consiste em realizar a classificação gramatical de cada palavra de uma frase de acordo com seu contexto. Esta informação é útil para outros estudos de mais alto nível da linguística, como tradução automática de textos, extração de informações de textos e classificação automática de temas de textos. Um etiquetador morfosintático associa cada palavra de um texto com sua categoria morfosintática (representada por uma etiqueta) unambígua no contexto em que a palavra é usada. Muitas palavras são ambíguas em sua classificação. Entretanto, quando a palavra aparece no contexto de outras palavras, geralmente essa ambiguidade é reduzida. Várias abordagens diferentes têm sido usadas para construir etiquetadores de texto. Dentre elas, se destaca a dos etiquetadores supervisionados estatísticos, que se baseiam em corpora pré-etiquetado e utilizam probabilidades para buscar resolver as ambiguidades. Entre os exemplos mais notáveis estão os modelos baseados em cadeias de Markov de ordem fixa. Esta ordem determina o tamanho do contexto de uma palavra que será examinado para buscar tornar unambigua sua classificação. Entretanto, a complexidade das cadeias de Markov cresce exponencialmente com sua ordem, e assim somente cadeias de Markov de baixa ordem podem ser consideradas na prática. Além do mais, muitas palavras necessitam de um contexto maior para serem classificadas corretamente. Em nosso trabalho, propomos um etiquetador estatístico de aprendizado supervisionado que utiliza cadeias de Markov de Tamanho Variável. Neste modelo, dependendo da palavra a ser classificada, um contexto sentencial maior ou menor pode ser analisado. Dessa forma, evitamos a complexidade exponencial relacionada à ordem da cadeia e, assim, esperamos obter efeitos melhores que das cadeias de Markov de ordem fixa.