\documentclass{report}
\batchmode
\usepackage{latexsym}
\usepackage{graphicx}
\usepackage[T1]{fontenc}
\usepackage[portuges]{babel}
\usepackage[latin1]{inputenc}
\usepackage{natbib} 
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{showkeys}
\usepackage{amssymb}
\usepackage{graphics}
\usepackage{epsfig}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%
%  change the catcode of @ (allows names containing @ after \begin{document})
%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\makeatletter

%
% Equations numbered within sections
%
\@addtoreset{equation}{section}
\def\theequation{\thesection.\arabic{equation}}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%
%
%  Redeclaration of \makeatletter; no @-expressions may be used from now on
%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\makeatother

%%%%%%%%%%% NUMINSEC.STY %%%%%%%%%%%%%%%%%%% BEGINNING
%\@addtoreset{equation}{section}   % Makes \section reset 'equation' counter.
\renewcommand\theequation{\thesection.\arabic{equation}}
%\newcommand\refeq[1]{{\rm (\ref{e:#1})}}

%\@addtoreset{theorem}{section}
\newtheorem{thm}[equation]{Theorem}
\newtheorem{lemma}[equation]{Lemma}
\newtheorem{corol}[equation]{Corollary}
\newtheorem{propos}[equation]{Proposition}
\newtheorem{ex}[equation]{Example}
\newtheorem{defin}[equation]{Definition}


%\@addtoreset{figure}{section}
%\renewcommand\thefigure{\thesection.\@arabic\c@figure}
\renewcommand\thefigure{\thesection.\arabic{equation}}

%\@addtoreset{table}{section}
%\renewcommand\thetable{\thesection.\@arabic\c@table}

%%%%%%%%%%% NUMINSEC.STY %%%%%%%%%%%%%%%%%%% END




\renewcommand{\baselinestretch}{1.5}
\oddsidemargin -7mm       % Remember this is 1 inch less than actual
%\evensidemargin 7mm
\textwidth 18cm
\topmargin -9mm           % Remember this is 1 inch less than actual
%\headsep 0.9in              % Between head and body of text
\headsep 20pt              % Between head and body of text
\textheight 22cm
\def\reff#1{(\ref{#1})}
\def\sobre#1#2{\lower 1ex \hbox{ $#1 \atop #2 $ } }


 % \setlength{\textheight}{22cm}
 % \setlength{\textwidth}{17cm} 
 % \setlength{\topmargin}{-10mm}
 % \setlength{\leftmargin}{2cm}

%\input mssymb
%\let\Bbb=\bf

\def\E{{\mathbb E}}
\def\P{{\mathbb P}}
\def\R{{\mathbb R}}
\def\Z{{\mathbb Z}}
\def\V{{\mathbb V}}
\def\N{{\mathbb N}}
\def\bN{{\bf N}}
\def\cX{{\cal X}}
\def\supp{{\rm Supp}\,}
\def\bX{{\bf X}}
\def\bY{{\bf Y}}
\def\cG{{\cal G}}
\def\cT{{\cal T}}
\def\cA{{\cal A}}
\def\cU{{\cal U}}
\def\cO{{\cal O}}
\def\bC{{\bf C}}
\def\bD{{\bf D}}
\def\bU{{\bf U}}
\def\bK{{\bf K}}
\def\bH{{\bf H}}
\def\bn{{\bf n}}
\def\bm{{\bf m}}
\def\bb{{\bf b}}
\def\bg{{\bf g}}
\def\bx{{\bf x}}
\def\sqr{\vcenter{
         \hrule height.1mm
         \hbox{\vrule width.1mm height2.2mm\kern2.18mm\vrule width.1mm}
         \hrule height.1mm}}                  % This is a slimmer sqr.
\def\square{\ifmmode\sqr\else{$\sqr$}\fi}
\def\one{{\bf 1}\hskip-.5mm}
\def\liml{\lim_{L\to\infty}}
\def\given{\ \vert \ }
\def\ze{{\zeta}}
\def\be{{\beta}}
\def\de{{\delta}}
\def\la{{\lambda}}
\def\ga{{\gamma}}
\def\th{{\theta}}
\def\proof{\noindent{\bf Proof. }}
\def\rate{{e^{- \beta|\ga|}}}
\def\bA{{\bf A}}
\def\bB{{\bf B}}
\def\bC{{\bf C}}
\def\bD{{\bf D}}
\def\bm{{\bf m}}

\title{Projeto de Pesquisa\\ Fonologia
Probabil\'\i stica do Ritmo}


\author{Modelagem Estocástica em Línguistica\\
  Instituto do Mil\^enio para o Avan\c co Global da Matemática} 
\date{Abril
  2005}

\begin{document}
\maketitle

\chapter{Introdu\c c\~ao}
O objetivo principal deste projeto interdisciplinar \'e o desenvolvimento de
uma nova \'area de pesquisa matem\'atica que poderia ser adequadamente chamada
de {\sl Fonologia Probabil\'\i stica do Ritmo}. Seu escopo \'e o estudo das
propriedades matem\'aticas das cadeias de ordem infinita descrevendo os
contornos acentuais em l\'\i nguas naturais, e mais geralmente dos processos
estoc\'asticos descrevendo a interface entre a sintaxe e o ritmo no desempenho
ling\"u\'\i stico. Utilizaremos o quadro conceitual da Teoria das
Probabilidades e o paradigma da Mec\^anica Estat\'\i stica para definir e
identificar caracter\'\i sticas r\'\i tmicas das l\'\i nguas naturais.

Os resultados produzidos devem responder a perguntas fundamentais da 
Ling\"u\'\i stica, a saber:

\begin{enumerate}

\item a quest\~ao da exist\^encia ou não de padr\~oes r\'\i tmicos nas 
l\'\i nguas naturais; 

\item a exist\^encia de uma tipologia discreta caracterizada por pontos 
cr\'\i ticos bem definidos, em oposi\c c\~ao a um contínuo r\'\i tmico; 

\item a exist\^encia de marcas do ritmo no sinal ac\'ustico
de fala e em textos escritos.

\end{enumerate}

Este projeto continuar\'a o trabalho de pesquisa matem\'atica sobre
Fonologia Probabil\'\i stica do Ritmo que vem sendo desenvolvido no
quadro do IM-AGIMB.  Essa linha de pesquisa utiliza a Teoria das
Probabilidades e o paradigma da Mec\^anica Estat\'\i stica para
modelar a interface sintaxe-fonologia.  Esse esfor\c co de pesquisa
deu origem a um conjunto de resultados novos na \'area de Teoria das
Probabilidades, com interesse matem\'atico intr\'\i nseco. Al\'em
disso, essa pesquisa construiu u quadro conceitual matemático dentro
do qual é possível dar um tratamento rigoroso das quest\~oes
ling\"u\'\i sticas que deram origem \`a pesquisa. Esse quadro
conceitual levou a predi\c c\~oes j\'a verificadas experimentalmente e
sugeriu novas linhas de investiga\c c\~ao. Finalmente, essa linha de
pesquisa produziu como sub-produto um conjunto de ferramentas
estat\'\i sticas e computacionais, entre elas os programas de c\'odigo
aberto {\sl Sotaq}, {\sl Vocale} e {\sl Piccolo}. 

Em resumo, o presente projeto tem como objetivo desenvolver a Teoria
dos Processos Estoc\'asticos, para formular e tratar rigorosamente um
conjunto de problemas centrais da Ling\"u\'\i stica. Além de
desenvolver resultados matemáticos originais interessantes por si só,
o projeto usará o quadro conceitual da Teoria das Probabilidades para
efetivamente interpretar, usando a an\'alise estat\'\i stica, os dados
linguísticos, visando obter uma compreens\~ao mais profunda das
questões formuladas. Esse \'e exatamente o paradigma historicamente
seguido pela F\'\i sica. Nossa pesquisa \'e em particular inspirada
pelas rela\c c\~ao f\'ertil que a Mec\^anica Estat\'\i stica
estabeleceu entre a Termodin\^amica e a Teoria das
Probabilidades. Como sub-produto o projeto desenvolver\'a ferramental
estat\'\i stico e computacional necess\'ario ao tratamento dos dados
linguísticos. Esse \'ultimo aspecto aponta para a possibilidade de
desdobramentos tecnol\'ogicos na \'area de Engenharia da Linguagem.

\chapter{Probabilidade e Ling\"u\'\i stica}

O presente projeto tem como ponto de partida a constata\c c\~ao de que
o desempenho lingu\'\i stico, embora submetido a restri\c c\~oes
possivelmente categ\'oricas de ordem gramatical, tem caracter\'\i
sticas t\'\i picas de um fen\^omeno estoc\'astico. Isso se manifesta
em particular na produ\c c\~ao e na percep\c c\~ao de contornos r\'\i
tmicos na fala e na escrita. N\~ao h\'a evid\^encias de que haja
regularidades determ\'\i nisticas correspondendo a {\sl padrõoes r\'\i
  tmicos} na fala. A pr\'opria no\c c\~ao de {\sl acento secund\'ario}
, crucial na implementa\c c\~ao do ritmo em qualquer variante do
Portugu\^es, parece nao ter um correlato ac\'ustico caracteriz\'avel
de forma booleana, embora ela seja suportada por experi\^encias
perceptuais reprodut\'\i veis.

Isso sugere que o que caracteriza contornos r\'\i tmicos n\~ao s\~ao
fun\c c\~oes booleanas, e sim distribui\c c\~oes de probabilidades no
espa\c co das sequ\^encias simb\'olicas, codificando os contornos
acentuais ou mel\'odicos. Ou seja, contornos acentuais parecem se
comportar como processos estoc\'asticos, cujas regularidades devem ser
provuradas ao n\'\i vel de suas leis probabil\'\i sticas (cf. Pierrehumbert 
2003).

A utiliza\c c\~ao de id\'eias probabil\'\i sticas em Ling\"u\'\i stica
n\~ao pode ser considerada uma novidade. Com efeito, em 1905, Markov
introduziu a classe de processos estoc\'asticos que vieram a ser
conhecidos como {\sl Cadeias de Markov} especificamente para modelar
as sequ\^encias de consoantes e vogais no poema {\sl Eug\^enio
Oneguin} de P\"ushkin. 

Kolmogorov em pessoa escreveu v\'arios textos cient\'\i ficos a partir
de 1960 sobre a modelagem do ritmo na poesia russa. Em um artigo
in\'edito de 1962, recentemente publicado, Kolmogorov mostra
evid\^encias emp\'\i ricas de que na poesia russa a omiss\~ao de s\'\i
labas tônicas no primeiro e terceiro p\'es de um octass\'\i labo
i\^ambico s\~ao eventos independentes e identicamente distribuídos.

Na mesma \'epoca os trabalhos not\'aveis de Rabiner colaboradores
propuseram diversos modelos probabil\'\i sticos, entre os quais as
{\sl Cadeias de Markov Ocultas}, para descrever a produ\c c\~ao de uma
sequ\^encia de fonemas constituindo palavras ou frases.  Variantes
desse modelo foram, em seguida, amplamente utilizadas em diversos
algoritmos de identifica\c c\~ao de fala e s\~ao at\'e hoje a base da
chamada {\sl Engenharia Ling\"u\i stica}.  Essas idéias ressurgiram
com muita for\c ca recentemente, associadas \`a proposta da chamada
{\sl Fonologia Probabil\'\i stica} de Janet Pierrehumbert.

Esses desenvolvimentos podem ser talvez melhor entendidos na
perspectiva da Mec\^anica Estat\'\i stica.  O paradigma da Mec\^anica
Est\'\i stica, formulado por Boltzmann, no final do s\'eculo XIX, lan\c
cou as bases para um novo quadro conceitual no qual pode ser
modelado e interpretado o comportamento de sistemas complexos. Do
ponto de vista matem\'atico esse quadro conceitual \'e a Teoria da
Probabilidades. Esse quadro tem sido utilizado de forma crescente
no estudo de diversos tipos de sistemas evolutivos em
\'areas como Biologia, Epidemiologia, Sociologia, Finan\c cas, etc,
al\'em da Ling\"u\'\i stica. 

Em Ling\"u\'\i stica, al\'em de nossa pr\'opria contribui\c c\~ao,
deve-se destacar o esfor\c co pioneiro de reflex\~ao na \'area
desenvolvido pelo Instituto de Estudos da Complexidade de Santa F\'e
nos anos 90, o recente projeto de pesquisa {\sl Dynamics and
  Metastability in phonological grammar}, coordenado por Janet
Pierrehumbert e contemplado em 2002 com um apoio importante da Funda\c
c\~ao James S. Mcdonnell, e os simpósios dos Meetings anuais da
Sociedade Linguística da América de 2001 e 2003 dedicados à Teoria da
Probabilidade em Linguística, culminando com a publica\c cão do livro
{\sl Probabilistic Linguistics} pelo MIT Press em 2003.

A equipe do presente projeto come\c cou em 1993 um trabalho de
pesquisa sistem\'atica diretamente inspirado pelo paradigma da
Mec\^anica Estat\'\i stica. A id\'eia era utilizar ''estados de
Gibbs'' como modelos para a interface sintaxe-fonologia. Essa id\'ia
foi desenvolvida nos artigos de Collet, Galves e Lopes (1995)
\nocite{CGL1995}, Cassandro, Collet, Galves e Galves (1999)
\nocite{CCGG} e Fern\'andez e Galves (2000)\nocite{FG}. A seguir
apresentaremos detalhadamente os diversos aspectos do presente
projeto.

\chapter{A conjectura das classes r\'\i tmicas e a modelagem
  estoc\'astica da sonoridade da fala}

A modelagem dos padr\~oes r\'\i tmicos em l\'\i nguas naturais \'e uma
quest\~ao na fronteira da pesquisa em ling\"u\'\i stica. A pr\'opria
hip\'otese da exist\^encia de classes r\'\i tmicas separando as l\'\i
nguas naturais em grandes grupos, embora corroborada por evid\^encias
de car\'ater psico-ling\"u\'\i stico, n\~ao encontrava até
recentemente suporte nos dados fonético-ac\'usticos.

Uma primeira evid\^encia ac\'ustica foi apresentada pelo artigo de
Ramus, Nespor e Mehler (1999), sendo o segundo autor membro
colaborador deste projeto. Este artigo mostrou evid\^encias que
medidas emp\'\i ricas do tempo relativo ocupado pelas vogais e a
variância dos comprimentos dos grupos consonantais separavam um
conjunto piloto de l\'\i nguas em tr\^es grandes grupos.  A abordagem
apresentada em Ramus, Nespor e Mehler (1999) depende de uma marca\c c
\~ao manual prévia dos intervalos voc\'alicos e consonantais. Esta
tarefa consome muito tempo e depende de decis\~oes dif\'\i ceis de
serem feitas de forma homog\^enea em larga escala.

Uma nova abordagem para o problema \'e apresentada em Galves, Garcia,
Duarte e Galves (2002).  Em vez de estudar dura\c c\~oes de intervalos
voc\'alicos e consonantais a proposta\'e estudar os valores de uma
fun\c c \~ao que mede, em cada instante, a {\sl sonoridade} local do
sinal ac\'ustico.  O c\'alculo da sonoridade\'e feito automaticamente
pelo programa Piccolo, que vem sendo desenvolvido por Galves e Garcia
e que pode ser obtido livremente para pesquisas acad\^emcias no
endere\c co {\tt http://www.ime.usp.br/$\widetilde{\ }$tycho/prosody}.
A seguir apresentamos as quest\~oes matem\'aticas sugeridas por essa
abordagem.


H\'a evid\^encias emp\'\i ricas de que a fun\c c \~ao sonoridade pode
ser bem modelada por uma cadeia quantizada de ordem infinita. Neste
modelo a sonoridade de cada l\'\i ngua \'e controlada por uma cadeia
de ordem infinita assumindo valores num alfabeto bin\'ario. Essa
cadeia, cuja lei depende da l\'\i ngua, determina os intervalos
passados nas regi\~oes de alta e baixa sonoridade. Em seguida,
condicionalmente \`a regi\~ao na qual se encontra, a distribui\c c\~ao
dos valores assumidos pela sonoridade segue probabilidades
independentes da l\'\i ngua. Em consequ\^encia, todas as informa\c
c\~oes sobre o r\'\i tmo de cada l\'\i ngua devem estar contidas
unicamente na cadeia de ordem infinita subjacente \`a sonoridade.

Seguem da\'\i duas quest\~oes probabil\'\i sticas interessantes. A
primeira \'e como estimar o ponto de corte separando as regi\~oes de
alta e baixa sonoridade. Essa quest\~ao \'e tratada em Cassandro,
Collet, Duarte, Galves e Garcia (2003) que demonstram um teorema de
consist\^encia para uma fam\'\i lia de estimadores do ponto de corte.
O pr\'oximo passo da pesquisa ser'a estudar as flutua\c c\~oes desses
estimadores e estimar suas vari\^ancias. Como esses estimadores s\~ao
definidos como argumentos de pontos de m\'aximo de certos funcionais
estoc\'asticos, essa \'e uma quest\~ao matem\'atica extremamente
delicada.  \'E interessante observar que as predi\c c\~oes feitas pelo
modelo apresentado nesse artigo s\~ao comprovadas experimentalmente de
forma bastante satisfat\'oria. As consequ\^encias dessas predi\c
c\~oes para a compreens\~ao da fonologia do ritmo \'e um dos temas a
serem pesquisados pelo projeto.

A segunda quest\~ao derivada desse modelo \'e a estima\c c\~ao de
probabilidades de cilindros de tamanho fixo, de probabilidades de
transi\c c\~ao e da entropia das cadeias de ordem infinita
subjacentes. O desenvolvimento de teoria inferencial para cadeias de
ordem infinita \'e um tema de grande import\^ancia e atualidade. Em
Collet, Duarte e Galves (2003) \'e introduzido um novo procedimento de
reamostragem sequencial para cadeias de ordem infinita e demonstrado
um teorema-limite central da reamostragem justificando esse
procedimento. Esse procedimento se aplica a probabilidades de
cilindros de tamanho fixo. Isso abre a possibilidade de testar a
igualdade das propor\c c\~oes de tempo passado em regi\~oes de alta ou
baixa sonoridade em cada classe de l\'\i nguas.

Em Abadi e Galves (2003) e Gabrielli, Galves e Guiol
(2003)  s\~ao apresentados resultados preliminares \`a
quest\~ao da estima\c c\~ao da entropia em cadeias de ordem
infinita. O primeiro trabalho discute a quest\~ao da velocidade de
converg\^encia da entropia de cadeias de Markov de ordem finita
convergindo de forma can\^onica para uma cadeia de ordem infinita. No
segundo artigo apresenta-se um teorema-limite central para as
entropias relativas emp\'\i ricas dessas cadeias aproximantes. Em
nosso projeto daremos sequ\^encia a esse trabalho, pesquisando as
condic\c c\~oes nas quais \'e poss\'\i vel estender o procedimento
sequencial e o teorema-limite central de reamostragem para cadeias de
ordem infinita para funcionais que dependem de toda a trajet\'oria da
cadeia como \'e o caso da entropia e das probabilidades de transi\c
c\~ao das cadeias.

Em todas essas pesquisas uma etapa pr\'evia importante foi a obten\c
c\~ao de majorantes finos para a dist\^ancia, em sentido $\bar{d}$ por
exemplo, entre as leis de uma cadeia de ordem infinita e suas
aproxima\c c\~oes markovianas. Esse \'e um tema recorrente em nosso
projeto que continuar\'a sendo pesquisado e cuja import\^ancia
matem\'atica transcende as aplica\c c\~oes acima mencionadas. Outro
tema recorrente \'e a obten\c c\~ao de resultados finos para
aproxima\c c\~oes de ordem infinita (cf. Abadi e Galves 2002 para uma
apresenta\c c\`ao atualizada da \'area).  Uma apresenta\c c\~ao
atualizada das cadeias de ordem infinita pode ser encontrada em
Fern\'andez, Ferrari e Galves (2001).



\chapter{Correlatos de ritmo em textos escritos de Portugu\^es
Brasileiro e Europeu Moderno}

Al\'em das cadeias de ordem infinita subjacentes \`a sonoridade, n\'os
estudamos nesse projeto tamb\'em as chamadas {\sl Cadeias de Markov de
Alcance Vari\'avel} (VLMC, do ingl\^es ``Variable Length Markov
Chain''). Elas aparecem como modelos para sequ\^encias codificadas de
s\'\i labas em textos escritos.
 
O modelo considera cada texto como uma amostra finita de uma Cadeia de
Markov de Alcance Vari\'avel com valores em um alfabeto finito e ordem
m\'axima que pode ser finita ou infinita. Uma VLMC \'e simplesmente
uma Cadeia de Markov apresentada de maneira parcimoniosa.

B\"{u}hlmann and Wyner (1999) prop\~oe um algoritmo para estimar a
fun\c c\~ao contexto que \'e consistente se a ordem da cadeia \'e
limitado. Galves, Garcia e Peixoto (manuscrito, 2005)
mostram que este algoritmo tamb\'em \'e consistente para o caso onde a
ordem da cadeia \'e infinita.

Considera\c c\~oes ling\"u\'\i sticas sugerem que padr\~oes r\'\i
tmicos distintos devem corresponder a \'arvores de contexto
distintas. Essa \'e a base para a nova abordagem que estamos propondo
para a identifica\c c\~ao de padr\~oes r\'\i tmicos em textos
escritos.  Estudamos textos do s\'eculo XX de autores brasileiros e
portugueses e textos hist\'oricos de escritores nascidos em Portugal
entre o s\'eculo XVI e XIX do Corpus Hist\'orico Tycho Brahe. Nestes
textos marcamos todas as s\'{\i}labas que s\~ao t\^onicas ou \'atonas,
in\'{\i}cio de palavra fonol\'ogica e ponto final. Usando Cadeias de
Markov de Alcance Vari\'avel estimamos as \'arvores de contexto e as
probabilidades de transi\c c\~ao modelando cada texto. Este m\'etodo
nos permite discriminar completamente entre Portug\^es Europeu Moderno
e Portugu\^es Brasileiro. Para os textos cl\'assicos, observamos
diferen\c cas em rela\c c\~ao a ambas as l\'{\i}nguas modernas, bem
como uma maior varia\c c\~ao nos padr\~oes atestados. 


At\'e o presente momento, utilizamos o algoritmo proposto por B\"uhlmann
e Wyner para estimar as fun\c c\~oes contexto para cada texto
separadamente usando o software R ({\tt http://www.r-proj.org}). 

Apesar de n\~ao haver consenso entre as \'arvores estimadas em cada
l\'{\i}ngua, acreditamos que existam certas
caracter\'{\i}sticas no ritmo que caracterizam e discriminam entre
Portugu\^es Europeu e Brasileiro. Neste caso, postularemos \'arvores
t\'{\i}picas para cada l\'{\i}ngua baseadas nas \'arvores estimadas e
da\'{\i} aplicaremos o teste da raz\~ao de verossimilhan\c ca para
testar esta hip\'otese.

Um problema completamente em aberto que pretendemos abordar \'e como
testar se duas l\'{\i}nguas tem diferentes fun\c c\~oes contexto sem
termos que postular uma fun\c c\~ao contexto a priori. Neste caso,
\'e conceb\'\i vel que duas popula\c{c}\~oes tenham a mesma fun\c c\~ao
contexto mas diferentes probabilidades de transi\c c\~ao. Este caso
n\~ao \'e coberto pela teoria tradicional de teste de hip\'otese.

Esta \'e uma linha extremamente promissora de pesquisa, totalmente
original do ponto de vista do procedimento de an\'alise dos dados
ling\ü\'\i sticos e de grande atualidade e interesse do ponto de vista
da Teoria das Probabilidades. Nosso projeto desenvolver\'a essa dire\c
c\~ao de pesquisa intensivamente.


\end{document}