DOWNLOAD

Alterações do beta3:
--------------------

1. Corrigidos os problemas causados pelo uso de três letras para
identificar os paradigmas verbais. Os paradigmas problemáticos
foram isolados em blocos. Adicionado ao conjugue suporte para os
paradigmas que não são caracterizáveis por três letras.

2. Corrigidos problemas reportados por Arnaldo Mandel, Fábio Kon
e Adriano Rodrigues: nas entradas duplicadas, não estava sendo
honrada a flexão mais abrangente, a flexão dos artigos definidos
não funciona (as flexões precisam ser acrescentados como raízes),
erros na documentação e algumas lacunas.

3. Acrescentada a opção -F ao programa fl. Essa opção classifica
e flexiona os não verbos de forma ingênua mas automática, baseada
na terminação das palavras. por exemplo: palavras terminadas em
"ção" são classificadas como substantivos femininos e flexionadas
como "ção, ções". A intenção desse código é servir como
proprocessador de listas de palavras sobre as quais nada se
saiba. Para ver a lista completa de terminações reconhecidas,
procure no programa fl a string "TTM". Esse código foi aplicado a
uma lista de cerca de 2000 palavras enviadas pelo Rodrigo
Siqueira (procure "Rodrigo" no Makefile para ver como isso é
feito). O resultado não foi analisado com cuidado, mas parece ser
razoável. Um problema conhecido é a incapacidade de identificar
formas verbais.

4. Classificadas, flexionadas e acrescentadas cerca de 2000
palavras enviadas pelo Rodrigo Siqueira (ver n. 3).


Alterações do beta2:
--------------------

1. Opções -x e -I adicionadas ao programa fl.

2. Adicionada uma dependência ao makefile (problema reportado por
Arnaldo Mandel).

3. As formas que não preservam nenhuma parte do lema estão sendo
adicionadas ao dicionário de explicitamente. Por exemplo: "foi"
não preserva nada do lema "ser". A regra de afixos que deriva
"foi" de "ser" é assim:

    S E R > -SER,FOI

Nem o ispell e nem o myspell aproveitam essa regra para o
infinitivo "ser". Assim, a forma "foi" (entre outras) tem que ser
adicionada ao dicionário explicitamente. No momento há 69 formas
desse tipo. Elas podem ser listadas através da opção -I do
programa fl (problema reportado por Arnaldo Mandel).

4. O programa fl ficou significativamente mais rápido.

5. Adicionado um FAQ.

ANÚNCIO

Este é o anúncio da versão 3.0 (beta) do br.ispell, um pacote
para revisão ortográfica do português do Brasil com conteúdo
lexical, programas e documentação, estando esse conjunto
livremente disponível sob os termos da licença GNU GPL.

Nesta versão o pacote está ganhando diversos recursos
novos. Assim que eles estiverem melhor estabilizados, será feito
o release 3.0 de fato. Sugestões e críticas são bem-vindas, bem
como a participação nos trabalhos. Para tanto, envie email para
ueda@ime.usp.br e/ou para a lista criada pelo Cláudio (v. n. 9
abaixo). Saudações a todos,

Ricardo Ueda.

---

COMO OBTER A NOVA VERSÃO
------------------------

A versão 3.0 beta pode ser obtida a partir do endereço

    http://www.ime.usp.br/~ueda/br.ispell/beta.html

Nessa página deverão também ser publicadas notícias sobre os
progressos, até o release de fato da nova versão.

A extração dos arquivos e eventuais testes com o pacote podem ser
feitos tanto no Linux quanto no Windows, mas subentendem um certo
conhecimento do ambiente e das ferramentas do Unix, bem como a
instalação, no Windows, de ferramentas que não são nativas.


NOVIDADES DA VERSÃO 3.0
-----------------------

  1. Várias correções
  2. Suporte para aspell e myspell (OpenOffice)
  3. Revisão cuidadosa do conjugador de verbos
  4. Tentativa de padronização da flexão dos nomes
  5. Lematização e expansão de formas em perl
  6. Separação silábica e ordenação fonética
  7. Tentativa de anotação e classificação gramatical e semântica
  8. Sistema de manutenção online
  9. Lista de discussão

Dentre os novos recursos, alguns estão implementados na
ferramenta "fl" (arquivo "fl" do pacote). É um script (programa)
perl. O manual (man page) está incluído no próprio script, na
forma de comentário, no início do arquivo. Ele traz vários
exemplos práticos de uso (por exemplo separação silábica de uma
palavra dada, cálculo do infinitivo de um verbo, etc).


DETALHES SOBRE AS NOVIDADES
---------------------------

Alguns dos arquivos citados a seguir não estão presentes no
tarball distribuído, devendo ser gerados como segue:

    $ make br.aff
    $ make br.ispell

Isso leva uns 4 minutos numa máquina de 1GHz.


1. Várias correções
-------------------

A base para a versão 3.0 do br.ispell foi a versão 2.5, que não
chegou a ser distribuída. A versão 2.5 foi preparada por Imre
Simon, a partir da 2.4, através de um trabalho extenso de
revisão.


2. Suporte para aspell e myspell (OpenOffice)
---------------------------------------------

Os arquivos de que o myspell necessita são criados de forma
automática. Há mais detalhes sobre isso no Makefile. Há detalhes
sobre como usar esses arquivos em

  http://www.ime.usp.br/~ueda/br.ispell/index.html#OOo
  http://oobr.querencialivre.rs.gov.br/docajuda_dict.php

Obs. O Augusto Tavares Rosa Marcacini fez um porte independente
para o myspell, que pode ser encontrado em
http://dict.progbits.com/download_dictionary.html


3. Revisão cuidadosa do conjugador de verbos
--------------------------------------------

O conjugador de verbos foi revisado de forma cuidadosa por várias
pessoas (veja os créditos abaixo). Toda a morfologia conhecida
pelo conjugador pode agora ser exportada na forma de tabela de
afixos do ispell. Isso significa que (até certo ponto) o conteúdo
total do conjugador pode agora ser utilizado sem o conjugador,
isto é, sem necessidade de entender, utilizar ou manusear o
código do conjugador.


4. Tentativa de padronização da flexão dos nomes
------------------------------------------------

A flexão dos nomes (substantivos e adjetivos) foi revisada,
reorganizada e ampliada.

A flexão dos nomes apresenta uma uniformidade menor e portanto
uma complexidade maior do que a conjugação verbal. A conjugação
verbal do pacote br.ispell pode hoje ser considerada completa, ou
quase. A flexão dos nomes está tentando aproximar-se disso.

A atual tentativa de ajustes na flexão dos nomes baseia-se em
blocos de afixos unívocos (flags A-Z no arquivo br.aff.nv),
seqüencias de regras de afixos e listas dessas seqüencias. Essas
listas são citadas na documentação como "paradigmas de flexão
nominal", e o estado delas pode ser examinado na seção
"paradigmas nominais" do arquivo br.base. Cada lema da seção de
verbetes do arquivo br.base refere um paradigma de flexão através
da chave par=N.

As deficiências da atual tentativa estão principalmente na flexão
de grau.


5. Lematização e expansão de formas em perl
-------------------------------------------

O procedimento de expansão de formas do ispell e a sua inversão
foram implementados em perl. A razão principal disso é o fato do
ispell estar caindo em desuso em favor do aspell ou outros. Essa
implementação não é eficiente, mas permite que muitos testes de
volume possam ser feitos utilizando-se o formato da tabela de
afixos do ispell, que é bastante prático, sem necessidade de
instalar o ispell manualmente, ou mesmo de conhecê-lo. Em
particular, o infinitivo de um verbo pode agora ser calculado
através de qualquer uma das suas formas, visto que elas
encontram-se tabeladas como afixos do ispell (veja item 3 acima).

A implementação feita não é eficiente pela falta de um índice. No
atual estado o seu uso demanda paciência e cpu rápida. Além
disso, ela não inclui todos os recursos do ispell, mas apenas a
expansão de formas e o cálculo de raízes.


6. Separação silábica e ordenação fonética
------------------------------------------

O Osmar Ritz estava organizando um dicionário de nomes. Ao
desistir do projeto, ele enviou-me uma lista com cerca de 12000
nomes de pessoas.

Muitas entradas não estão conformes à ortografia usual ("Kaio",
"Aleksandro", etc). Na tentativa de normalizar a ortografia de
forma automática, arriscamos escrever um procedimento de
ordenação fonética simples baseado em separação silábica.

Essa tentativa está agora no ponto dos ajustes finos da
codificação da equivalência fonética de sílabas (ex. "tha" =
"ta"). Para examiná-la, observe no arquivo fl os exemplos de uso
e o código das funções "vf" e "silabas".

Além disso, o pacote agora calcula um silabário de forma
automática (veja a entrada "silabas" do Makefile). O pacote
inclui também cerca de 200 testes de separação silábica (arquivo
testesep) extraídos de livros de Hêndricas Nadólskis, Napoleão
Mendes de Almeida, Celso Luft, Osmar Barbosa, Celso Cunha e José
Oiticica.


7. Tentativa de anotação e classificação gramatical e semântica
---------------------------------------------------------------

A manutenção de um vocabulário flexionado ao longo do tempo exige
a anotação das entradas, e uma estruturação gramatical e/ou
semântica.

Desde o surgimento do pacote br.ispell, várias tentativas de
anotação e estruturação foram feitas. Agora todo o conteúdo nelas
acumulado foi convertido para um formato simples que suporta as
anotações mais comuns.

Esse formato imita mais ou menos um dicionário tradicional,
acrescentando informações de origem (autor) da anotação, flexão e
uma classificação semântica.

Para examinar esse formato, basta carregar num editor de textos o
arquivo br.base do pacote e navegar um pouco nele. As abreviações
estão descritas no arquivo fl, procedimento registre_abrevs. Se
houver necessidade, leia na documentação da ferramenta fl
(encontra-se no início do arquivo fl do pacote) a descrição
completa do formato.

Praticamente todas as entradas do arquivo br.base estão
flexionadas no padrão descrito acima (n. 4). Essa flexão foi
produzida manualmente ao longo dos anos. Um dos pontos fracos
dela, já citado acima, é a flexão de grau.

A classificação semântica adotada assemelha-se àquela dos livros
didáticos para aprendizado de línguas, isto é, é feita em torno
de temas do cotidiano como "frutas", "profissões", etc. Há
atualmente entre 200 e 300 classes. Uma grande quantidade de
lemas (certamente mais de 50%) não está classificada.

A classificação gramatical (isto é, nas classes "substantivo",
"adjetivo", "numeral", "verbo", etc) abrange 75% dos não verbos
(os verbos são tratados à parte pelo programa conjugue). Muitas
classificações estão, entretanto, incompletas (ex. "substantivo"
ao invés de "substantivo feminino"). A classificação gramatical
foi quase totalmente deduzida de forma automática a partir da
classificação semântica (veja a classificação por categoria na
seção "semântica" do arquivo br.base) e das próprias formas
(ex. -ção,s.f., -mente,adv., etc).


8. Sistema de manutenção online
-------------------------------

Foi criado um sistema de manutenção online. Está operando apenas
ao nível de formas flexionadas/conjugadas, mas isso deverá ser
melhorado em breve para que ele suporte a fatoração nos lemas. O
sistema está provisoriamente hospedado em

    http://www.claraocr.org/br.ispell

mas migrará para outro lugar assim que possível.

Esse sistema quer ser uma ferramenta para a manutenção
cooperativa e, até onde isso for possível, impessoal do
vocabulário no longo prazo.

ESSE SISTEMA ENCONTRA-SE NO MOMENTO FORA DO AR.

9. Lista de discussão
---------------------

O Cláudio Ferreira Filho criou uma lista de discussão. Para
inscrever-se envie email para

   ... (a lista no momento encontra-se fora de funcionamento)


CRÉDITOS
--------

A revisão feita por Imre Simon contou com conteúdo obtido junto
a Edleno Silva de Moura e Nivio Ziviani.

Vários problemas do conjugador foram reportados ou corrigidos por
Imre Simon, Raul Fernandes, Alexandre Hamada, e Augusto Tavares
Rosa Marcacini. Agradecimentos especiais para Alexandre Hamada.

Rodrigo Siqueira contribuiu listas extensas de palavras.

Raul Fernandes contribuiu um vocabulário médico extenso.

O suporte a OpenOffice contou com a ajuda de Olivier Hallot,
Cleber Gonçalves, Claudio Ferreira Filho, Winston Leibon e
Nicolau A. S. Rodrigues.

Osmar Ritz contribuiu outras listas temáticas além dos nomes de
pessoas.

Alguns ajustes ou novos recursos deveram-se a esclarecimentos
feitos por Maria Tereza Camargo Biderman.

Carlos E. Morimoto ofereceu-nos gentilmente as palavras do
dicionário http://www.guiadohardware.net/dicionario

Marcelo Finger emprestou a terceira edição do Cândido de
Figueiredo para testes de digitalização. Aliás, esse é um terreno
em que obtivemos progressos sensíveis.

As morfolimpíadas e as discussões de avaliação que surgiram por
iniciativa da Diana Santos têm sido um incentivo para os
trabalhos em torno do br.ispell.

Várias outras pessoas fizeram observações ou apontaram
problemas. Dentre elas gostaria de lembrar Leslie H. Watter,
E. A. Tacão, Wanderlei Cavassin, e André Uratsuka.

Agradecimentos relativos às versões anteriores podem ser
encontrados em http://www.ime.usp.br/~ueda/br.ispell

Se esqueci alguém, peço desculpas e também que me avisem!