A Construção do Corpus Anotado do Português Histórico Tycho Brahe:

o sistema de anotação morfológica*

 

 

Charlotte Galves and Helena Britto+

 

Unicamp, Caixa Postal 6153, CEP 13082-970 Campinas, Brasil

galvesc@ime.usp.br  helenabritto@mpc.net.com.br

 

 

Resumo: Inspirado no sistema proposto para o Penn-Helsinki Parsed Corpus of Middle English (PPCME) [28], o sistema de etiquetas utilizado no etiquetador morfológico automático usado para a construção do Corpus Anotado do Português Histórico Tycho Brahe já foi apresentado em diversos trabalhos ([10],  [3], [2], [6]). Neste trabalho, apresentaremos e discutiremos os processos lingüísticos decisórios subjacentes à elaboração do conjunto de etiquetas e suas aplicações.

 

 

1         Introdução

 

Elaborado nos moldes do PPCME, o Corpus Anotado do Português Histórico Tycho Brahe consiste em um corpus eletrônico anotado morfológica e sintaticamente, com livre acesso pela internet, composto por textos em prosa, escritos originalmente em português por falantes nativos do português europeu nascidos entre 1550 e 1850 (cf. http://www.ime.usp.br/~tycho/corpus).

Inserido em um projeto de pesquisa que visa sobretudo a estudar a relação entre  mudança prosódica e mudança sintática no período do português comumente denominado clássico, o objetivo do Corpus Tycho Brahe é disponibilizar publicamente dados históricos do português europeu anotados de tal maneira que os estudiosos de sua história possam recuperar rápida e inambigüamente informações categoriais e estruturais pertinentes a análises morfo-sintáticas da língua.[1] Segundo a metodologia proposta no PPCME [28], a etiquetagem morfológica dos textos constitui o primeiro passo deste processo de anotação, servindo de base para a codificação sintática subseqüente. Contudo, é importante ressaltar que os textos automaticamente etiquetados são disponibilizados independentemente, uma vez que já contêm por si informações relevantes para estudos da língua. Por isso, cada um dos textos, representados por cinqüenta mil (50.000) palavras cada, deve estar eletronicamente disponível em três formatos:

 

(i)                   ortograficamente transcritos: O fim da minha jornada verá V. Ex.a.

(ii)                 morfologicamente etiquetados: O/D fim/N da/P+D-F minha/PRO$-F jornada/N-F verá/VB-R Vossa/PRO$-F Excelência/NPR ./.

(iii)                sintaticamente anotados (ainda em fase de construção)[2]

 

O presente trabalho discute a construção e uso do sistema de anotação morfológica do ponto de vista lingüístico, e será organizado como segue. Na seção 2,  discutiremos os requisitos para um sistema de etiquetas morfológicas. A seção 3 apresentará o sistema adotado para  a anotação do corpus.  Na seção 4, proporemos alguns estudos de caso, justificando decisões que foram tomadas na atribuição de uma ou mais etiquetas a certos itens lexicias. Finalmente, na seção conclusiva do trabalho, indicamos o rendimento, do ponto de vista lingüístico, da aplicação das etiquetas proposta a textos de autores nascidos nos séculos XVI e XVII.

2        Requisitos para um sistema de anotação morfológica

 

Para a elaboração do conjunto de etiquetas e sua utilização, procuramos satisfazer os seguintes requisitos.

 

2.1         Adequação Descritiva

 

As etiquetas têm que representar e discriminar adequadamente as categorias necessárias à descrição dos enunciados presentes na língua em geral, e no corpus em particular. Obviamente, essa restrição impede a utilização pura e simples de um etiquetador elaborado para uma certa língua no processamento de uma outra. Por esta razão, por exemplo, a adaptação para o português do sistema elaborado para o inglês médio envolveu a introdução de uma série de etiquetas destinadas a codificar as propriedades flexionais da língua (gênero dos nomes, morfologia verbal diversificada, sistema de pronomes-complemento átonos – doravante clíticos).

 

2.2         Recuperabilidade da Informação

 

O objetivo do corpus anotado é permitir aos estudiosos da história do português obterem de maneira rápida e confiável as informações necessárias para desenvolver análises sincrônicas ou diacrônicas de aspectos lexicais, morfológicos e sobretudo sintáticos da língua. O conjunto de etiquetas tem que ser construído e aplicado de modo a permitir recuperar da maneira mais econômica e exaustiva possível essas informações. Por outro lado, é preciso ressaltar a necessidade de não fechar análises na base da língua  moderna, ocultando fenômenos em mudança. Esse ponto será ilustrado abaixo com a questão do particípio (v. seção 4.4). Note-se que isso significa também que se tende para um sistema capaz de abranger o mais uniformemente possível todas as fases da língua, uma vez que não se podem definir a priori fronteiras entre períodos.

 

2.3         Simplicidade Computacional

 

O número total de etiquetas diferentes compondo o conjunto deve ser compatível com um tratamento computacional do corpus, nomeadamente com o treinamento de um etiquetador automático aplicado a este. O problema da complexidade computacional ligada à riqueza morfológica do português é amplamente discutido nas referências citadas acima, e solucionado com um sistema de etiquetas com estrutura interna, compostas por uma parte de base, à qual é associada a classe do item lexical, e sub-partes que expressam tanto um sub-grupo dentro de uma mesma classe de palavra (1), quanto traços flexionais carregados pelo item (2).

 

(1) o/D problema vs. um/D-UM problema

(2) os/D-P belos/ADJ-P campos/N-P

 

Este sistema de etiquetas em sub-níveis permite dois passos distintos no treinamento do etiquetador morfológico automático, contornando assim a complexidade computacional criada pelo crescimento do número de etiquetas distintas devido à riqueza morfológica. Continua pertinente porém a necessidade de limitar o número tanto das etiquetas-raiz, quanto das sub-etiquetas. Restringimos assim, por exemplo, as sub-etiquetas flexionais de gênero e número às classes de palavras que expressam a concordância nominal, o que exclui os pronomes pessoais.

 

2.4         Adequação Sintática

 

A anotação morfológica serve de base para a anotação sintática (parsing) do corpus. Ela deve portanto facilitar ao máximo a tarefa do parser automático, otimizando a interação entre a adequação descritiva morfológica e a adequação descritiva sintática. Este requisito nos leva, por exemplo, a atribuir uma etiqueta distinta ao item lexical até, para distinguir o seu uso como preposição (P) ou como operador de focalização (FP). Apesar de esse item ser tradicionalmente classificado como preposição em ambos os usos, eles devem ser distinguidos do ponto de vista sintático, já que só no primeiro há um sintagma caracterizável como preposicionado.

 

2.5         Decidilibidade

 

A atribuição de uma ou várias etiquetas a uma palavra tem que ser baseada em regras não ambíguas, cuja regularidade de aplicação facilita o treinamento das ferramentas automáticas, e a verificação manual do resultado das mesmas. Não pode deixar margem a dúvidas susceptíveis de serem resolvidas diferentemente conforme o anotador.[3] Além disso, deve-se ressaltar que em se tratando de textos históricos, a intuição do falante moderno pode ser inadequada (cf. o problema já levantado na seção 2.2) O requisito da decidilibidade traz a necessidade de etiquetas default, atribuídas em casos não marcados, ou ambíguos. Enfim, o papel da anotação não é analisar os dados, mas disponibilizá-los de tal modo que possam ser analisados de maneira sistemática.

Claramente, estes requisitos nem sempre podem ser satisfeitos conjuntamente, uma vez que são em parte antagônicos. Para nos atermos a exemplos simples, consideremos por exemplo a adequação descritiva, que leva à multiplicação das etiquetas, vs. a simplicidade computacional que impõe a sua limitação. A decidibilidade, por outro lado, favorece a biunivocidade entre palavra e etiqueta, entrando em choque com a adequação descritiva e a adequação sintática que requerem em muitos casos mais de uma etiqueta associada a um único vocábulo. A melhor escolha consistirá portanto numa otimização, caso a caso, desses requisitos, privilegiando consistentemente o objetivo do corpus.

 

3        O Sistema de Etiquetas Morfológicas

 

Norteado pelos requisitos acima, o sistema de anotação morfológica proposto é formado por dois grupos básicos de etiquetas: etiquetas categoriais (utilizadas para a classificação do item lexical segundo a classe de palavra a que pertence) e flexionais (articuladas às categorias por meio de diacríticos (v. (1) e (2)), podendo ser de natureza verbal, designadores de informações modo-temporais, ou não-verbal, indicadoras de traços flexionais de gênero e número).[4]

                As motivações lingüísticas para a composição do sistema de anotação ora proposto podem ser assim resumidas.

 

3.1         Verbos

 

No que tange a etiquetas categoriais, dois tipos de itens [+V] são contemplados. De um lado, sob o rótulo VB, são codificados os verbos chamados plenos – i.e. que atribuem papel temático a seu(s) argumento(s). Por outro, etiquetas categoriais distintas são atribuídas a ser (SR), estar (ET), ter (TR) e haver (HV), pois que estas formas parecem oscilar diacronicamente entre um comportamento de verbos plenos e um de simples auxiliares verbais, restritos apenas a portar informação flexional.

                A distinção entre formas [+V] finitas e não-finitas, indubitavelmente relevante aos estudos sintáticos[5], é codificada em nosso sistema pela ausência (em formas infinitivas não-flexionadas) vs. presença (nas formas finitas em geral e não-finitas de infinitivo (visivelmente) flexionado, gerúndio e particípio[6]) de etiquetas flexionais específicas associadas às etiquetas categorias acima listadas.

 

(3)           Ser/SR grande/ADJ-G homem/N ,/, (...) bom/ADJ é/SR-P  para/P o/D mundo/N (in Chagas).[7]

(4)           quem/WPRO a/P esta/D-F der/VB-SR muito/Q tempo/N (in Sousa).

(5)           nada/Q quero/VB-P de/P ninguém/Q mais/ADV-R que/CONJS o/D encomendarem-me/VB-F+CL a/P Deus/NPR (in Chagas).

(6)           E/CONJ havendo/HV-G um/D-UM homem/N de/P ler/VB (in Lobo).

 

Ainda com relação às etiquetas flexionais associadas às formas lexicais [+V], a opção por codificar apenas informação modo-temporal, sem explicitação de traços número-pessoais, foi motivada, por um lado, para a adequação do sistema de etiquetas ao requisito referente à simplicidade computacional (v. seção 2.3)[8], e por outro lado, por privilegiarmos sobremaneira a codificação de morfologia visível.[9]

 

3.2         Nomes e pronomes

 

Nomes e pronomes tônicos. Tradicionalmente, nomes e pronomes compõem classes distintas; por isso, etiquetá-los diferentemente é o esperado. A história do português europeu, entretanto, oferece argumentos, para além dos tradicionais, que fortalecem a necessidade desta distinção.  Trata-se do comportamento distinto entre pronome e nomes em sentenças não-dependentes com ordem XP clítico V (XP [+referencial]), quando observamos a mudança diacrônica gradual da língua – comportamento este não esperado do ponto de vista gramatical [5].[10]

O presente sistema prevê etiquetas distintas para essas categorias, que são ainda subdivididas entre pronomes tônicos (PRO) e possessivos (PRO$), por um lado, e nomes comuns (N) e próprios (NPR), por outro[11]. Destas, todas exceto PRO podem vir associadas a etiquetas flexionais de gênero e número.

 

(7)           entre/P os/D-P mistérios/N-P do/P+D recato/N (in Chagas).

(8)           Amai-o/VB-I+CL vós/PRO muito/Q com/P todo/Q vosso/PRO$ coração/N (in Chagas).

 

Clíticos. Para os clíticos, duas etiquetas são propostas: SE, para o clítico se em todos seus contextos; CL, para os demais clíticos (me, te, o, a, lhes, etc). Ao clítico se é atribuída uma etiqueta particular em virtude de seu específico comportamento, não só pelo fato de desempenhar várias funções sintáticas (como partícula reflexiva, apassivizadora ou indeterminadora), como também por mostrar propriedades morfológicas idiossincráticas  (não permitindo contrações – ele mo deu vs. *ele so deu), mas sobretudo  por ser, por si só, um tópico de investigação sincrônica e diacrônica.

 

3.3         Determinantes e Pronomes Demonstrativos

 

A etiqueta D, associada ou não às etiquetas flexionais de gênero e número, é aplicada não só aos elementos tradicionalmente chamados artigos definidos (o, a, os, as), mas também aos pronomes demonstrativos flexionáveis (este, esse, aquele, esta, essa, aquela, etc), uma vez que, no decorrer de toda a história do português europeu tais elementos apresentam idêntica distribuição sintática. Por outro lado, aos pronomes demonstrativos não-flexionáveis (isto, isso e aquilo), que apresentam efetivo comportamento pronominal, aplicamos a etiqueta DEM. Finalmente, para os determinantes indefinidos, aplicamos a etiqueta D obrigatoriamente associada à sub-etiqueta -UM (e opcionalmente às flexionais). Desse modo, diferenciamos dos demais, este determinante que, dentre outras, possui a propriedade de poder ser [+referencial].

 

3.4         O tratamento das Conjunções

 

Na adaptação para o português do sistema de anotação morfológica adotado para o inglês médio, encontramos problemas devidos a tradições gramaticais diferentes, baseadas, em grande parte, em funcionamentos morfo-sintáticos distintos. Esse problema diz respeito essencialmente à categorização das conjunções. No sistema de anotação do PPCME, a única conjunção de subordinação é that, etiquetada /C, e as únicas conjunções de coordenação são and e but, etiquetadas /CONJ. A tradição gramatical portuguesa nos leva a incluir na classe das conjunções muitos mais itens lexicais, etiquetados no inglês como preposições. Incluímos assim na classe das palavras etiquetadas /CONJ itens como contudo, porém, que (com interpretação explicativa, frequentemente encontrado nos textos do século 17), etc., e adicionamos  ao nosso sistema a etiqueta /CONJS, para conjunções de subordinação, como embora, conforme, como, que (com interpretação causal, comparativa ou consecutiva).[12]

 

3.5         Adjetivos, Advérbios e Quantificadores

 

Os itens lexicais que, do ponto de vista interpretativo, quantificam sobre entidades ou eventos recebem a etiqueta Q, a qual podem ser associadas etiquetas flexionais. No português moderno, a propriedade quantificacional aplicada a entidades pode ser neutralizada a depender da posição, dentro do sintagma nominal, do item que a expressa. Assim, itens geralmente classificados como quantificadores em posição pré-nominal podem ser interpretados como adjetivos, quando em posição pós-nominal. No presente sistema de anotação, desenvolvido para ser aplicado ao português clássico e moderno, decidimos pela posição de acordo com a qual os quantificadores, contrariamente aos adjetivos e aos verbos, são etiquetados /Q em qualquer contexto, inclusive quando tais elementos têm distribuição e interpretação de itens adjetivais ou são precedidos de determinante e não seguidos de nome [19].[13] Esse tratamento diferenciado corresponde ao reconhecimento de que se trata de uma classe fechada com propriedades semânticas muito particulares. A sua recuperabilidade enquanto classe, seja qual for o contexto, é assim privilegiado no tratamento dessas palavras.

Finalmente, quanto aos advérbios, aos denominados de intensidade, identificados na literatura como quantificadores de evento, é atribuída a etiqueta Q, restando a etiqueta ADV propriamente aos advérbios locativos, de tempo e de modo.

 

4        Estudos de Caso

 

4.1  A Estrutura Interna do Sintagma Nominal

 

Nomes e verbos. É uma característica recorrente da fase do português que consideramos no nosso corpus a sequência determinante-verbo:

 

(9)           o seu cansar e o seu folgar consiste em mui diferentes empregos do nosso ./. (in Sousa)

 

Como etiquetar os verbos nesses contextos? Do ponto de vista distribucional, encontram-se exatamente na posição de um nome. Devemos então etiquetá-los como nome, tornando assim a tarefa do etiquetador automático mais simples? Num primeiro momento, assumimos essa posição, tomando a etiqueta N como default nesses casos. Ou seja, só etiquetariamos como VB os infinitivos precedidos de artigo quando houvesse claras marcas da sua natureza verbal, ou bem marcas flexionais, ou bem a presença de argumentos não preposicionados, como em (10):

 

(10)         E assim a êle se deve, depois de Deus, o conservar/VB as fazendas; a êle o apertar/VB e intimidar/VB o inimigo, sendo a uns freio para o não seguirem, e a outros espora para o perseguirem (in Vieira)

 

Desse ponto de vista, os infinitivos do exemplo (9) têm que ser considerados como Ns. Ora, esta decisão nos apareceu rapidamente como  inadequada, por ocultar  uma construção muito frequente do português do século 17, codificando-a como um sintagma nominal normal e portanto prejudicando o nosso objetivo de  facilitar o estudo da sintaxe do período.  Desse último ponto de vista, é VB e não N que deve ser tomado como etiqueta default[14].

Encontramos aqui um caso claro de contradição entre a simplicidade computacional, que favoreceria a ocorrência da mesma categoria num mesmo contexto, e a recuperabilidade da informação sintática, no caso a distribuição das formas infinitivas na história da língua. O privilégio que damos à segunda se justifica pelo objetivo do Corpus Tycho Brahe.

 

A estrutura interna dos DPs e a  robustez das classes. À primeira vista, essa escolha cria um segundo problema: o da adequação sintática. Com efeito, os sintagmas que contêm as formas infinitivas em (9) e (10) têm distribuição de  sintagmas nominais na oração, sendo respectivamente sujeito e objeto direto.  O fato de tais formas infinitivas serem etiquetadas como VB parece então dificultar a tarefa do analisador  sintático.  Porém esse problema se resolve facilmente se, em lugar de  marcar sintagmas nominais como NPs, o parser trabalha com a categoria DP, assinalada claramente pela presença do determinante.

Essa decisão mostra-se adequada não só para o problema que acabamos de discutir como para os vários outros casos da língua portuguesa em que o determinante é seguido de categoria diferente de N. Note-se que uma decisão baseada em meras considerações distribucionais nos levaria a etiquetar como N muitas outras palavras que obviamente não pertencem a essa classe. O uso da categoria DP permite facilitar uma codificação unitária das palavras pertencentes a classes fechadas como os advérbios ou os quantificadores, facilitando tanto a recuperabilidade da informação – de novo, trata-se de não ocultar  fenômenos sintáticamente relevantes, como a grande diversidade da estrutura interna dos DPs [30] - quanto a decidibilidade, uma vez que se limita drasticamente o número de etiquetas suceptível de ser atribuido a um mesmo item lexical.  Veja-se por exemplo o item lexical mais, que conforme a sua distribuição,  teria que ser considerado advérbio (11) ou nome (12), mas que em função do raciocínio acima deverá receber sempre a mesma etiqueta: ADV-R.

 

(11)         a/D-F melhor/ADJ-R-G pintura/N é/SR-P a/D-F que/WPRO mais/ADV-R se/SE parece/VB-P com/P a/D-F  obra/N  da/P+D-F natureza/N (in Lobo)

(12)         Tudo/Q isto/DEM digo/VB-P a/P Vossa/PRO$-F Paternidade/NPR como/CONJS a/P quem/WPRO devo/VB-P dar/VB conta/N do/P+D meu/PRO$ espírito/N ,/, e/CONJ ,/, como/CONJS for/SR-SR tempo/N ,/, darei/VB-R do/P+D mais/ADV-R da/P+D-F minha/PRO$-F vida/N ./. (in Chagas)

 

Limites da análise unitária: a focalização. A atribuição de uma mesma etiqueta a uma mesma palavra tem contudo limites. Tomemos, por exemplo, o vocábulo mesmo. O seu uso mais freqüente é de adjetivo precedido de determinante e seguido de nome, apesar de também ocorrer apenas acompanhado por determinante. Conforme o raciocínio acima,  mesmo deve ser etiquetado como adjetivo em ambos os casos. Entretanto, em certos contextos, mesmo aparece claramente numa posição não acessível a outros adjetivos: antes de determinante ou pronome (mesmo o rapaz/ele)[15] ou depois de pronome pessoal ou demonstrativo (ele/isto mesmo). Nesses casos, trata-se muito claramente de focalização do sintagma que segue ou do pronome  que antecede. Recorremos então à etiqueta FP, que, além de ser descritivamente adequada, deve facilitar a tarefa de análise sintática subsequente, ao  excluir a possível análise dessas sequências como mini-orações adjetivais, única construção em que um verdadeiro adjetivo poderia ocorrer neste mesmo contexto (bonito, o rapaz! ou Acho isto interessante). Quando mesmo aparece em posição pré-nominal, a interpretação de focalização é eventualmente disponível, mas em muitos casos fica sujeita a variação na interpretação. Nesses casos, assumimos portanto o valor default da posição, que é ADJ. Observe-se que as considerações de ordem distribucional, que afetam a simplicidade computacional e de adequação sintática vão nesse caso no mesmo sentido, e permitem chegar a uma regra simples na atribuição das duas etiquetas ao mesmo item lexical.

 

4.2  Etiquetagem da Forma Que

 

A forma que traz muitas vezes ambiguidade entre que conjunção explicativa, etiquetada /CONJ, e que relativo, etiquetado /WPRO. Em caso de dúvida, o valor default é /WPRO, porque facilita o estudo das estratégias de relativização. A terceira função de que é de puro complementizador (/C), introduzindo o complemento de um verbo ou de um nome, e também de uma preposição e locuções como já que, ainda que, etc. Um problema interessante surge com as orações relativas com pronome-lembrete. Do ponto de vista da gramática gerativa, não há propriamente relativização, já que não há movimento, e que é simplesmente um complementizador. Contudo, não nos parece correto atribuir-lhe a etiqueta /C por duas razões: por um lado, não haveria base para uma distinção sintática entre orações relativas e complementos de nome; por outro lado, dificultaria a recuperação de dados relativos às construções relativas.

 

4.3 Questões de morfologia flexional: formas verbais em -ra infinitivos e particípios

 

Neste item, trataremos da etiquetagem de formas verbais baseada na morfologia explícita, em particular no que diz respeito à terminação verbal -ra e às formas participiais.

 

Terminação Verbal em -ra. Quanto às formas verbais terminadas em -ra, observa-se que estas têm distribuição sintática bastante distinta quando períodos diferentes da língua são comparados. A título de exemplificação, se no português moderno é francamente preferencial a presença do subjuntivo passado em sentenças condicionais (se houvesse), no português clássico formas em -ra são sistematicamente encontradas em tal contexto (se houvera). Além disso,  sentenças-matriz do português moderno nas quais são encontradas formas do futuro do pretérito apresentam no português clássico formas em -ra.  Tais distinções certamente constituem um profícuo tema para investigação diacrônica. Visando a privilegiar a recuperabilidade de tais formas, independentemente do contexto de sua ocorrência ou seu valor condicional, mais-que-perfeito ou hipotético, tais itens são, segundo nosso sistema de anotação, sistematicamente etiquetados como /RA.

 

Imperativo. Para o tratamento do imperativo, incorporamos em nosso sistema de anotação uma observação já amplamente divulgadas na literatura sintática sobre línguas românicas – o fato de que apenas formas com marcação morfológica especificamente imperativa (2as pessoas do singular e plural) apresentam comportamento sintático particular. Assim sendo, apenas a estas aplicamos a sub-etiqueta -I, indicadora de imperativo (aceitai/VB-I vós vs. aceite/VB-SP Vossa Mercê).

 

5        Conclusões

 

Aplicado a textos de autores nascidos nos séculos XVI (Luis de Sousa) e XVII (António Vieira[16] e António das Chagas)[17] – perfazendo um total de 150.000 palavras –,  o sistema de anotação ora proposto mostrou-se lingüísticamente consistente, no sentido de não parecer haver distorções de informação lingüística em qualquer dos itens lexicais em questão. Note-se que esta observação está fortemente baseada no processo de correção manual dos arquivos etiquetados automaticamente, e não propriamente numa avaliação de efetiva produtividade do etiquetador automático.[18] Note-se ainda que, eventualmente, o fato de os arquivos etiquetados automaticamente terem sido corrigidos inicialmente por mais de um lingüista,  ou de os textos neles contidos serem de gêneros diferentes poderia ser um fator complicador à obtenção da consistência e sistematicidade mencionada. Entretanto,  um vez confrontado o trabalho dos diferentes lingüistas frente aos textos citados, o resultado alcançado indica que o sistema de anotação proposto é suficientemente robusto e sistemtático.[19]  O futuro retreinamento do etiquetador automático com base nos textos manualmente corrigidos e subseqüente submissão a este dos demais textos previstos no Corpus Tycho Brahe inidicará com mais precisão quão robusto e sistemático o sistema proposto deve efetivamente ser considerado.

 

Referências Bibliográficas

 

1.        Borer, H.: The Syntax of Pronominal Clitics. (Syntax and Semantics, Vol. 19). Orlando, Fla., Academic Press (1986)

2.        Britto, H. & Finger, M.: Constructing a Parsed Corpus of Historical Portuguese. Proceedings of the International Humanities Computing Conference ACH-ALLC’99 (1999) 234-235 (http://www.iath.virginia.edu/ach-allc.99/proceedings/britto.html)

3.        Britto, H., Galves C., Ribeiro, I., Augusto, M. & Scher, A.: Morphological Annotation System for Automatic Tagging of Electronic Textual Corpora: from English to Romance Languages. Proceedings of the 6th International Symposium of Social Communication (1999) 582-589

4.        Burtler, T., Fisher, S., Hockey, S., Coulombe, G., Clements, P., Brown, S., Grundy, I., Carte, K., Harvey, K. & Wood, J.: Cam a Team Tag Consistently? Experiences on the Orlando Project. Proceedings of the International Humanities Computing Conference ACH-ALLC’99 (1999) 234-235 (http://www.iath.virginia.edu/ach-allc.99/proceedings/ burtler.html)

5.        Cardinaletti, A. & Starke, M.: The Typology of Structural Deficiency. Manuscrito não-publicado. Univ. Veneza/Univ. Genebra (1994)

6.        Chacur, D. & Finger, M.: Etiquetagem do Português Clássico Baseado em Corpus. Artigo submetido ao IV PROPOR. Évora, Portugual

7.        Chomsky, N.: Lectures on Government and Binding. Foris, Dordrecht (1981) 

8.        Chomsky, N.: Barriers. The MIT Press, Cambridge, Massachusetts (1986)

9.        Cinque, G.: Types of A' Dependencies. The MIT Press, Cambridge, Massachusetts (1990)

10.     Finger, M.: Tagging a Morphologically Rich Language. Proceedings of the 1st Workshop on Text, Speech and Dialogue TDS'98 (1998) 39-44

11.     Galves, C.: Clitic Placement in Europen Portuguese: Evidence for a Non-homogeneous Theory of Enclisis. Workshop sobre o Português. Associação Portuguesa de Lingüística, Lisboa.

12.     Jaeggli, O.: Topics in Romance Syntax. Foris, Dordrecht (1982)

13.     Jaeggli, O. & Safir, K.: The Null Subject Parameter. Foris, Dordrecht (1989)

14.     Kayne, R.: Null Subject and Clitic Climbing. In: Jaeggli & Safir, op.cit. (1989)

15.     Kayne, R.: Romance Clitics, Verb Movement, and PRO. Linguistic Inquiry 22 (1991) 647-686

16.     Koster, Jan & May, R: On the Constituency of Infinitives. Language 58-1 (1982) 117-143

17.     Lakoff, R.T.: Abstract Syntax and Latin Complementation. The MIT Press, Cambridge, Massachusetts (1968)

18.     Martins, A.M.: Clíticos na História do Português. Tese de Doutorado. Univ. Lisboa (1994)

19.     Mateus, M.H.M., Brito, A.M., Duarte, I.S. & Faria, I.H. Gramática da Língua Portuguesa. Livraria Almedina, Coimbra (1983)

20.     McCloskey, J.: Inflection and Conjuction in Modern Irish. Natural Language and Liguistic Theory  4 (1986) 245-282.

21.     Pollock, J-Y.: Verb Movement, Universal Grammar, and the Structure of IP. Linguistic Inquiry 20 (1989) 365-424

22.     Raposo, E.: Romance Infinitival Clauses and Case Theory. In: Neidle, C. & Nunez-Cedeno, R. (eds): Studies in Romance Languages. Foris, Dordrecht (1987) 237-249

23.     Raposo, E.: Teoria da Gramática: a Faculdade da Linguagem. Caminho, Lisboa (1992)

24.     Rizzi, L.: Null Objects in Italian and the Theory of pro. Linguistic Inquiry  17 (1986) 501-557.

25.     Rizzi, L.: Relativized Minimality. The MIT Press, Cambridge, Massachusetts (1990)

26.     Rizzi, L.: A Parametric Approach to Comparative Syntax: Properties of the Pronominal System. In: Haegeman, L.: The New Comparative Syntax. Longman, Londres (1997)

27.     Stowell, T.: Origins of Phrase Structure. Tese de Doutorado. MIT (1981)

28.     Taylor, A. & Kroch, A.: The Penn-Helsinki Parsed Corpus of Middle English II. Manuscrito não publicado. Univ. Pensilvânia (1998)

29.     Torres-Morais, M.A.:  Do Português Clássico ao Português Europeu Moderno: Um Estudo da Cliticização e do Movimento do Verbo. Tese  de Doutorado. UNICAMP (1995)

30.     Zamparelli, R.: Layers in DP: the basic idea (http://ww.cogsci.ed.ac.uk/~roberto/ layers/basic.html) (1996)

 

 



* O projeto de pesquisa Padrões Rítmicos, Fixação de Parâmetro e Mudança Lingüística (coord. Charlotte Galves), no qual o presente trabalho se insere, é financiado pelo Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) - Proc. 98/03382-0.

+ A pesquisadora, pós-doutoranda, conta com auxílio financeiro da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) - Proc. 98/12074-3.

 

[2] Atualmente, dispomos de dez (10) arquivos ortograficamente transcritos e três (03) arquivos morfologicamente etiquetados (cf. http://www.ime.usp.br/~tycho/corpus).

[3] Conforme discutido em [4], aplicar etiquetas consistentemente é um dos princípios metodológicos fundamentais na elaboração de grandes corpora anotados.

[4] Para uma visão completa das etiquetas do Corpus Tycho Brahe e suas aplicações, v. http://www.ime.usp.br/corpus/manual/etiq_english.html.

[5] Para as várias distinções sintáticas entre sentenças finitas vs. não-finitas (com ou sem clíticos), v. [17], [7], [27], [16], [1], [8], [20], [22], [14], [21], [9], [15], [23], [11], dentre outros.

[6] Como sugerido por um dos pareceristas do IV PROPOR, e também como já proposto anteriormente [3], o presente sistema de anotação prevê etiquetas distintas para  particípios com função adjetival e passiva (-AN) vs. verbal (-PP). Observe-se que, frente a eventuais ambiguidades entre essas formas, utilizamos como default a etiqueta -PP.

[7] Para a referência completa dos textos donde os exemplos presentes neste trabalho foram extraídos, cf. http://www.ime.usp.br/~tycho/corpus/list_txt/list.html.

[8]  Embora relevante do ponto de vista lingüístico, a não-marcação de traços de pessoa num corpus que trata da história do português europeu não é problemática, uma vez que, durante toda sua história, a língua nunca perdeu as propriedades sintáticas (ordem VS generalizada e presença de sujeitos nulos referenciais) que parecem ser motivadas por tais traços (cf. [7], [12], [24], [13], [25], [26]).

[9] No que diz respeito ao infinitivo, por exemplo, contrariamente à gramática tradicional, não fazemos distinção de tratamento entre uma forma de 3a pessoa e uma forma não flexionada.

[10] No decorrer do século XIX (período em que já ocorrera a mudança gramatical que levou à atual agramaticalidade de sentenças como (a) e (b) (cf. [18]; [29]), ainda se observam nos textos vários exemplos como (a), mas dificilmente (b):

             (a) Ella te leva também uns rebuçados (in Garrett, A. (1799-1854 ) apud [29])

(b) e a costureira o demorou (in Garrett, A. (1799-1854 ) apud [29])

[11] A divisão entre nomes comuns e próprios é também motivada por seus distintos comportamentos sintáticos, já observados anteoriormente [7].

[12] Anthony Kroch (comunicação pessoal) argumenta que a preposição está visível na formação de palavras como contudo, porém, porque, embora, conforme, etc. Apesar disto, seguindo a tradição gramatical, mantivemos a distinção entre conjunções coordenativas vs. subordinativas. Note-se, entretanto, que a possibilidade de substituir CONJS por P – e, assim, suprimir uma etiqueta – pode ser sempre considerada.

[13]              Note-se que o próprio corpus ora em construção deverá permitir um estudo sistemático acerca da distribuição de quantificadores e adjetivos na história do português, que até o momento não foi realizado.

[14] Essa decisão não deixa de ser aparentemente problemática também. Por exemplo, como  etiquetar palavras que no português moderno são claramente nominalizadas como jantar, poder, ser (no sentido de ser humano)?  A leitura dos textos responde claramente a essa pergunta. Essas palavras têm no português setecentista exatamente o mesmo valor que têm hoje. Veja as seguintes frases:

(a)         e/CONJ pois/CONJ lhe/CL descobri/VB-D o/D nome/N ,/, é/SR-P necessário/ADJ ,/, senhor/N Leonardo/NPR ,/, que/C lhe/CL deis/VB-SP agora/ADV o/D ser/N ./. (in Rodrigues Lobo)

(b)         e/CONJ o/D jantar/N e/CONJ cea/N ia/VB-D todos/Q-P os/D-P dias/N-P da/P+D-F cozinha/N do/P+D Arcebispo/NPR ./. (in Frei Luis de Sousa)

Em (a), a palavra ser tem claramente o sentido filosófico de “essência”, recorrente nos textos considerados, e jantar tem seu sentido moderno em (b).

[15] Note-se que esta observação de caráter distribucional se estende também aos nomes próprios.

[16]              No que diz respeito a António Vieira, o texto em questão diz respeito à correspondência pessoal do autor.

[17]              Para a referência dos textos de tais autores, cf. nota. 7.

[18]              Para  uma avaliação computacional da aplicação de tais etiquetas, v. Chacur & Finger (1999).

[19]              Para verificar tais arquivos etiquetados, v. http://www.ime.usp.br/~tycho/corpus.