DOWNLOAD
Alterações do beta3: -------------------- 1. Corrigidos os problemas causados pelo uso de três letras para identificar os paradigmas verbais. Os paradigmas problemáticos foram isolados em blocos. Adicionado ao conjugue suporte para os paradigmas que não são caracterizáveis por três letras. 2. Corrigidos problemas reportados por Arnaldo Mandel, Fábio Kon e Adriano Rodrigues: nas entradas duplicadas, não estava sendo honrada a flexão mais abrangente, a flexão dos artigos definidos não funciona (as flexões precisam ser acrescentados como raízes), erros na documentação e algumas lacunas. 3. Acrescentada a opção -F ao programa fl. Essa opção classifica e flexiona os não verbos de forma ingênua mas automática, baseada na terminação das palavras. por exemplo: palavras terminadas em "ção" são classificadas como substantivos femininos e flexionadas como "ção, ções". A intenção desse código é servir como proprocessador de listas de palavras sobre as quais nada se saiba. Para ver a lista completa de terminações reconhecidas, procure no programa fl a string "TTM". Esse código foi aplicado a uma lista de cerca de 2000 palavras enviadas pelo Rodrigo Siqueira (procure "Rodrigo" no Makefile para ver como isso é feito). O resultado não foi analisado com cuidado, mas parece ser razoável. Um problema conhecido é a incapacidade de identificar formas verbais. 4. Classificadas, flexionadas e acrescentadas cerca de 2000 palavras enviadas pelo Rodrigo Siqueira (ver n. 3). Alterações do beta2: -------------------- 1. Opções -x e -I adicionadas ao programa fl. 2. Adicionada uma dependência ao makefile (problema reportado por Arnaldo Mandel). 3. As formas que não preservam nenhuma parte do lema estão sendo adicionadas ao dicionário de explicitamente. Por exemplo: "foi" não preserva nada do lema "ser". A regra de afixos que deriva "foi" de "ser" é assim: S E R > -SER,FOI Nem o ispell e nem o myspell aproveitam essa regra para o infinitivo "ser". Assim, a forma "foi" (entre outras) tem que ser adicionada ao dicionário explicitamente. No momento há 69 formas desse tipo. Elas podem ser listadas através da opção -I do programa fl (problema reportado por Arnaldo Mandel). 4. O programa fl ficou significativamente mais rápido. 5. Adicionado um FAQ.
ANÚNCIO
Este é o anúncio da versão 3.0 (beta) do br.ispell, um pacote para revisão ortográfica do português do Brasil com conteúdo lexical, programas e documentação, estando esse conjunto livremente disponível sob os termos da licença GNU GPL. Nesta versão o pacote está ganhando diversos recursos novos. Assim que eles estiverem melhor estabilizados, será feito o release 3.0 de fato. Sugestões e críticas são bem-vindas, bem como a participação nos trabalhos. Para tanto, envie email para ueda@ime.usp.br e/ou para a lista criada pelo Cláudio (v. n. 9 abaixo). Saudações a todos, Ricardo Ueda. --- COMO OBTER A NOVA VERSÃO ------------------------ A versão 3.0 beta pode ser obtida a partir do endereço http://www.ime.usp.br/~ueda/br.ispell/beta.html Nessa página deverão também ser publicadas notícias sobre os progressos, até o release de fato da nova versão. A extração dos arquivos e eventuais testes com o pacote podem ser feitos tanto no Linux quanto no Windows, mas subentendem um certo conhecimento do ambiente e das ferramentas do Unix, bem como a instalação, no Windows, de ferramentas que não são nativas. NOVIDADES DA VERSÃO 3.0 ----------------------- 1. Várias correções 2. Suporte para aspell e myspell (OpenOffice) 3. Revisão cuidadosa do conjugador de verbos 4. Tentativa de padronização da flexão dos nomes 5. Lematização e expansão de formas em perl 6. Separação silábica e ordenação fonética 7. Tentativa de anotação e classificação gramatical e semântica 8. Sistema de manutenção online 9. Lista de discussão Dentre os novos recursos, alguns estão implementados na ferramenta "fl" (arquivo "fl" do pacote). É um script (programa) perl. O manual (man page) está incluído no próprio script, na forma de comentário, no início do arquivo. Ele traz vários exemplos práticos de uso (por exemplo separação silábica de uma palavra dada, cálculo do infinitivo de um verbo, etc). DETALHES SOBRE AS NOVIDADES --------------------------- Alguns dos arquivos citados a seguir não estão presentes no tarball distribuído, devendo ser gerados como segue: $ make br.aff $ make br.ispell Isso leva uns 4 minutos numa máquina de 1GHz. 1. Várias correções ------------------- A base para a versão 3.0 do br.ispell foi a versão 2.5, que não chegou a ser distribuída. A versão 2.5 foi preparada por Imre Simon, a partir da 2.4, através de um trabalho extenso de revisão. 2. Suporte para aspell e myspell (OpenOffice) --------------------------------------------- Os arquivos de que o myspell necessita são criados de forma automática. Há mais detalhes sobre isso no Makefile. Há detalhes sobre como usar esses arquivos em http://www.ime.usp.br/~ueda/br.ispell/index.html#OOo http://oobr.querencialivre.rs.gov.br/docajuda_dict.php Obs. O Augusto Tavares Rosa Marcacini fez um porte independente para o myspell, que pode ser encontrado em http://dict.progbits.com/download_dictionary.html 3. Revisão cuidadosa do conjugador de verbos -------------------------------------------- O conjugador de verbos foi revisado de forma cuidadosa por várias pessoas (veja os créditos abaixo). Toda a morfologia conhecida pelo conjugador pode agora ser exportada na forma de tabela de afixos do ispell. Isso significa que (até certo ponto) o conteúdo total do conjugador pode agora ser utilizado sem o conjugador, isto é, sem necessidade de entender, utilizar ou manusear o código do conjugador. 4. Tentativa de padronização da flexão dos nomes ------------------------------------------------ A flexão dos nomes (substantivos e adjetivos) foi revisada, reorganizada e ampliada. A flexão dos nomes apresenta uma uniformidade menor e portanto uma complexidade maior do que a conjugação verbal. A conjugação verbal do pacote br.ispell pode hoje ser considerada completa, ou quase. A flexão dos nomes está tentando aproximar-se disso. A atual tentativa de ajustes na flexão dos nomes baseia-se em blocos de afixos unívocos (flags A-Z no arquivo br.aff.nv), seqüencias de regras de afixos e listas dessas seqüencias. Essas listas são citadas na documentação como "paradigmas de flexão nominal", e o estado delas pode ser examinado na seção "paradigmas nominais" do arquivo br.base. Cada lema da seção de verbetes do arquivo br.base refere um paradigma de flexão através da chave par=N. As deficiências da atual tentativa estão principalmente na flexão de grau. 5. Lematização e expansão de formas em perl ------------------------------------------- O procedimento de expansão de formas do ispell e a sua inversão foram implementados em perl. A razão principal disso é o fato do ispell estar caindo em desuso em favor do aspell ou outros. Essa implementação não é eficiente, mas permite que muitos testes de volume possam ser feitos utilizando-se o formato da tabela de afixos do ispell, que é bastante prático, sem necessidade de instalar o ispell manualmente, ou mesmo de conhecê-lo. Em particular, o infinitivo de um verbo pode agora ser calculado através de qualquer uma das suas formas, visto que elas encontram-se tabeladas como afixos do ispell (veja item 3 acima). A implementação feita não é eficiente pela falta de um índice. No atual estado o seu uso demanda paciência e cpu rápida. Além disso, ela não inclui todos os recursos do ispell, mas apenas a expansão de formas e o cálculo de raízes. 6. Separação silábica e ordenação fonética ------------------------------------------ O Osmar Ritz estava organizando um dicionário de nomes. Ao desistir do projeto, ele enviou-me uma lista com cerca de 12000 nomes de pessoas. Muitas entradas não estão conformes à ortografia usual ("Kaio", "Aleksandro", etc). Na tentativa de normalizar a ortografia de forma automática, arriscamos escrever um procedimento de ordenação fonética simples baseado em separação silábica. Essa tentativa está agora no ponto dos ajustes finos da codificação da equivalência fonética de sílabas (ex. "tha" = "ta"). Para examiná-la, observe no arquivo fl os exemplos de uso e o código das funções "vf" e "silabas". Além disso, o pacote agora calcula um silabário de forma automática (veja a entrada "silabas" do Makefile). O pacote inclui também cerca de 200 testes de separação silábica (arquivo testesep) extraídos de livros de Hêndricas Nadólskis, Napoleão Mendes de Almeida, Celso Luft, Osmar Barbosa, Celso Cunha e José Oiticica. 7. Tentativa de anotação e classificação gramatical e semântica --------------------------------------------------------------- A manutenção de um vocabulário flexionado ao longo do tempo exige a anotação das entradas, e uma estruturação gramatical e/ou semântica. Desde o surgimento do pacote br.ispell, várias tentativas de anotação e estruturação foram feitas. Agora todo o conteúdo nelas acumulado foi convertido para um formato simples que suporta as anotações mais comuns. Esse formato imita mais ou menos um dicionário tradicional, acrescentando informações de origem (autor) da anotação, flexão e uma classificação semântica. Para examinar esse formato, basta carregar num editor de textos o arquivo br.base do pacote e navegar um pouco nele. As abreviações estão descritas no arquivo fl, procedimento registre_abrevs. Se houver necessidade, leia na documentação da ferramenta fl (encontra-se no início do arquivo fl do pacote) a descrição completa do formato. Praticamente todas as entradas do arquivo br.base estão flexionadas no padrão descrito acima (n. 4). Essa flexão foi produzida manualmente ao longo dos anos. Um dos pontos fracos dela, já citado acima, é a flexão de grau. A classificação semântica adotada assemelha-se àquela dos livros didáticos para aprendizado de línguas, isto é, é feita em torno de temas do cotidiano como "frutas", "profissões", etc. Há atualmente entre 200 e 300 classes. Uma grande quantidade de lemas (certamente mais de 50%) não está classificada. A classificação gramatical (isto é, nas classes "substantivo", "adjetivo", "numeral", "verbo", etc) abrange 75% dos não verbos (os verbos são tratados à parte pelo programa conjugue). Muitas classificações estão, entretanto, incompletas (ex. "substantivo" ao invés de "substantivo feminino"). A classificação gramatical foi quase totalmente deduzida de forma automática a partir da classificação semântica (veja a classificação por categoria na seção "semântica" do arquivo br.base) e das próprias formas (ex. -ção,s.f., -mente,adv., etc). 8. Sistema de manutenção online ------------------------------- Foi criado um sistema de manutenção online. Está operando apenas ao nível de formas flexionadas/conjugadas, mas isso deverá ser melhorado em breve para que ele suporte a fatoração nos lemas. O sistema está provisoriamente hospedado em http://www.claraocr.org/br.ispell mas migrará para outro lugar assim que possível. Esse sistema quer ser uma ferramenta para a manutenção cooperativa e, até onde isso for possível, impessoal do vocabulário no longo prazo. ESSE SISTEMA ENCONTRA-SE NO MOMENTO FORA DO AR. 9. Lista de discussão --------------------- O Cláudio Ferreira Filho criou uma lista de discussão. Para inscrever-se envie email para ... (a lista no momento encontra-se fora de funcionamento) CRÉDITOS -------- A revisão feita por Imre Simon contou com conteúdo obtido junto a Edleno Silva de Moura e Nivio Ziviani. Vários problemas do conjugador foram reportados ou corrigidos por Imre Simon, Raul Fernandes, Alexandre Hamada, e Augusto Tavares Rosa Marcacini. Agradecimentos especiais para Alexandre Hamada. Rodrigo Siqueira contribuiu listas extensas de palavras. Raul Fernandes contribuiu um vocabulário médico extenso. O suporte a OpenOffice contou com a ajuda de Olivier Hallot, Cleber Gonçalves, Claudio Ferreira Filho, Winston Leibon e Nicolau A. S. Rodrigues. Osmar Ritz contribuiu outras listas temáticas além dos nomes de pessoas. Alguns ajustes ou novos recursos deveram-se a esclarecimentos feitos por Maria Tereza Camargo Biderman. Carlos E. Morimoto ofereceu-nos gentilmente as palavras do dicionário http://www.guiadohardware.net/dicionario Marcelo Finger emprestou a terceira edição do Cândido de Figueiredo para testes de digitalização. Aliás, esse é um terreno em que obtivemos progressos sensíveis. As morfolimpíadas e as discussões de avaliação que surgiram por iniciativa da Diana Santos têm sido um incentivo para os trabalhos em torno do br.ispell. Várias outras pessoas fizeram observações ou apontaram problemas. Dentre elas gostaria de lembrar Leslie H. Watter, E. A. Tacão, Wanderlei Cavassin, e André Uratsuka. Agradecimentos relativos às versões anteriores podem ser encontrados em http://www.ime.usp.br/~ueda/br.ispell Se esqueci alguém, peço desculpas e também que me avisem!