Dicionário br.ispell


[Home] [Dissertação] [Biba] [Linux] [Conjugue] [axw3] [uplink]

Click here for an english summary .

Novidade (out02): FAQ

Novidade (set02): br.ispell 3.0 beta

Novidade: (jul02) Open Office

Esta é a versão 2.4 (outubro de 1999) do dicionário br.ispell do português falado no Brasil (talvez fosse melhor dizer vocabulário, no entanto o jargão do ispell é dictionary). Para obtê-lo, basta fazer o download do arquivo br.ispell-2.4.tar.gz aqui presente.

Este dicionário está disponível sob os termos da licença GNU GPL . Ele pode ser utilizado livremente por qualquer pessoa para fins de checagem ortográfica de quaisquer textos via ispell. Ele pode também ser utilizado livremente por qualquer pessoa para quaisquer outros fins, desde que o trabalho resultante permaneça livremente redistribuível.

Estamos fazendo o possível para que o dicionário seja o mais completo e correto possível, não obstante há varios problemas conhecidos que estão comentados ao longo destas páginas. Envie críticas, dúvidas e comentários a ueda@ime.usp.br (Ricardo Ueda Karpischek).

Histórico

A primeira versão foi desenvolvida em 1995. Ela contava com um vocabulário relativamente extenso, mas com muitas lacunas. Na ocasião o Arnaldo Mandel sugeriu enriquecê-lo com outro dicionário desenvolvido em Portugal (veja a página do José João Almeida), após um trabalho de adaptação. Esse trabalho começou a ser feito, mas acabamos não o completando.

De lá para cá diversas pessoas interessaram-se por esse dicionário, mas não pudemos fazer nada além de enviá-lo naquela forma incompleta e indicar o do José João. A partir da segunda versão entretanto ele tornou-se bem mais completo e útil, e de lá para cá vem sendo continuamente aprimorado.

Desde a primeira versão os verbos foram tratados separadamente através do conjugue , que agora conta com um banco de 4000 verbos, e que é capaz de gerar as conjugações completas de todos eles. Para os demais vocábulos mantemos suas raízes e as regras de flexão em gênero e grau, por exemplo

    afilhad:a,as,o,os
    avó:,s

Entre as pessoas que ao longo do tempo colaboraram com os trabalhos das mais diversas formas estão:

Àqueles de quem eu eventualmente estiver esquecido peço desculpas; irei acrescentá-los à lista assim que me lembrar ou for lembrado dos seus nomes. O Wanderlei Cavassin montou o RPM do br.ispell para o Red Hat em português da Conectiva. O Rafael Laboissiere é o mantenedor do pacote ibrazilian da distribuição Debian. O João Carlos Mendes Luis foi quem empacotou o br.ispell para o FreeBSD . Nestes três sistemas operacionais (citados aqui na ordem cronológica dos empacotamentos) o br.ispell figura como componente oficial. O Alexandre Oliva adaptou o br.ispell para o formato do aspell e disponibilizou pacotes RPM em http://www.ic.unicamp.br/~oliva/snapshots/aspell-pt_BR/

Como Contribuir

Qualquer contribuição, de qualquer pessoa, é bem-vinda e será incluída no dicionário. Contribuições podem ser feitas na forma de listas de palavras ou de textos em língua portuguesa. As pessoas que contribuírem precisam estar cientes dos termos da licença GNU GPL e de acordo que o material que disponibilizarem seja incluído num dicionário distribuído com essa licença. Em caso de dúvidas favor enviar um email para ueda@ime.usp.br.

Características e problemas

Este dicionário foi desenvolvido principalmente através do levantamento manual, palavra por palavra, do vocabulário em uso no Brasil, ou ao menos aqui em São Paulo. Por esse motivo é natural que restem lacunas, que no entanto aos poucos vão sendo preenchidas e são cada vez mais raras, a ponto de podermos dizer que o dicionário na sua atual forma está próximo de estar completo, no sentido de conter os termos de uso mais frequente.

A fim de facilitar o levantamento e a eventual revisão vocabular, o trabalho foi desenvolvido organizando as palavras em classes semânticas, e acumulando as flexões em gênero e grau numa mesma entrada. Isso poderá tornar possível no futuro a criação de diversas versões desse dicionários, específicas para determinadas áreas do conhecimento. Seguem dois pequenos excertos do dicionário assim organizado:


    # Cardinais
    um
    dois
    três
    quatro
    cinco
    seis
    (etc)

    # Laços familiares
    afilhad:a,as,o,os
    avó:,s
    avô
    bisav:ó,ô
    bisnet:a,as,o,os
    (etc)

Um problema que permanece é a revisão (por fazer) das conjugações dos verbos. Cerca de 80% do conteúdo do dicionário não foi digitada ou coletada em textos, nem sequer revisada. Foi inferida heuristicamente através do conjugador de verbos conjugue . O trabalho de revisão que necessita ser feito nesse campo é bastante amplo, não obstante muitos progressos vem sendo obtidos de forma localizada.

Open Office

Atenção: o arquivo pt_BR.aff foi corrigido no dia 13/7/2002, se a sua cópia for mais antiga faça um upgrade.

Atenção: o arquivo pt_BR.dic foi corrigido no dia 19/7/2002, se a sua cópia for mais antiga faça um upgrade.

Várias pessoas perguntaram sobre o uso do br.ispell no Open Office. Eu estava aguardando que alguém fizesse a conversão, mas os emails começaram a acumular-se. Assim, acabei escrevendo um script de conversão. Para usar o br.ispell no Open Office são necessários apenas os dois arquivos seguintes:

Ou:

Para descomprimir os dois primeiros use o gunzip:

    $ gunzip pt_BR.aff.gz
    $ gunzip pt_BR.dic.gz

Para que o openoffice opere com esses arquivos, siga as instruções do mini-howto que se encontra em http://oobr.querencialivre.rs.gov.br e/ou siga a seguinte receita enviada pelo Cláudio Ferreira Filho:

    1) Descompacte os dois arquivos e copie os arquivos pt_BR.dic e
    pt_BR.aff para o diretório

    <Dir_Install>\OpenOffice.org1.0\user\wordbook

    2) Crie/edite o arquivo dictionary.lst, no mesmo diretório,
    adicionando a linha :

    DICT pt BR pt_BR

    3)Entre no menu :
        Tools...
        +-> Options...
            +-> LanguageSetting:
                +-> Languages:   Selecione Português do Brasil
                +-> WritingAids: no primeiro edit, use os menus e escolha a
                                 opção Português (BR).

O Winston Leibon avisa: não esqueça de rodar o instalador de dicionários.

Além disso, o Olivier Hallot enviou-nos também o seguinte link: http://whiteboard.openoffice.org/lingucomponent/download_dictionary.html

Bem, com todas essas dicas acho que ficou fácil...

Agradeço todos os que contataram-me por conta desse assunto. Em particular, agradeço ao Olivier Hallot, ao Cleber Gonçalves e ao Claudio Ferreira Filho, ao Winston Leibon e ao Nicolau A. S. Rodrigues.

Alguns links

Notas

1. O ispell mantém o dicionário numa forma apropriada para a consulta ser eficiente. Esse é o arquivo br.hash, que deve ser colocado no diretório em que o ispell espera encontrá-lo (em geral /usr/lib/ispell). O arquivo .hash é construído a partir do arquivo "affix" (br.aff) que define as regras de aplicação de afixos às palavras, e da lista de palavras com indicações de quais regras aplicar em cada palavra.

2. Para especificar o dicionário br ao ispell, use a opção -d (por exemplo "ispell -d br texto.txt"). Você pode manter listas particulares de palavras, extendendo o .hash da distribuição. Um modo simples de fazer isso é colocá-las todas, uma por linha, num arquivo chamado .ispell_words no seu diretório home.

3. O Paulo Eduardo Neves nos mandou uma receita muito boa de como usar o ispell dentro do Emacs.

4. O Marcelo Trindade e o Edson Sardella mandaram-nos algumas dicas sobre o uso do ispell e do br.ispell em ambientes DOS e WINDOWS:

Do Marcelo:

O Ispell for DOS/Windows (ispellw32.zip) que funciona em portugues (ou seja,
que aceita caracteres 8bit) pode ser encontrado na pagina seguinte:

http://www.ntg.nl/ispell-dutch96/

No entanto, tive dificuldade em montar o hash usando o buildhash incluido
neste zip. O que fiz entao foi compilar o hash usando os teus arquivos
(usando buildhash do ispell-3.1 UNIX) e o transferi para Windows.
Ele estah funcionando bem
para mim (em ingles, frances e portugues).

Do Edson:

Descobri um site onde pode podes encontrar o ispell32
para windows. Eh o chamado 4allTeX. Possui um apelo
grafico muito bacana.

http://4tex.ntg.nl

Outro corretor ortografico eh o do WinEdt. Funciona somente
com este (poderoso) editor de texto para (La)TeX e HTML.
Inclusive existe dicionario em portugues.

http://www.winedt.com
Do Daniel Martins 

Uso Debian e o ibrazilian e, claro, consegui usar o ispell com
comandos como

    ispell-buffer ispell-word etc...

mas o comando que mais uso do ispell é o

    ispell-complete-name que associo a Esc-x

só que este comando está invariavelmente associado ao
american-english pois a variável

    ispell-complete-word-dict

está setada para

    /usr/share/dict/words

que por sua vez é um link simbólico

    words -> /etc/alternatives/dictionary

ou 

    /usr/share/dict/american-english


Então se nós formos usar qq ispell (tentei francês tb) para
completar as palavras sempre será usado o american-english.

Se já sabes como sair disto por favor me avise ou então me
indique alguém ou alguma lista que eu possa colocar o problema.

O natural seria ao se mudar o dicionário com

    ispell-change-dictionary

que o dicionário do ispell-complete-word seja mudado

não gostaria de cada vez que mudar de língua ter de mudar um link
simbólico