\documentclass[12pt]{article}

%% Escrevendo em português:
\usepackage[brazil]{babel}
\usepackage[latin1]{inputenc}
%----------------------------

\usepackage{html}

% adiciona um footnote nas referencias
% is 29fev00 ver ime:/usr/local/lib/texmf/tex/latex/packages/babel/portuges.dtx
%    \def\refname{Refer\^encias}%
\addto\captionsbrazil{%
  \def\refname{Refer\^encias\footnote{Todas as URLs %
    mencionadas foram visitadas em 28 de outubro de 2002.}}%
  }

\title{O oráculo bibliográfico: sonhos de um pesquisador}
\author{Imre Simon
\\[0.3ex]Universidade de São Paulo
\\05508-900 São Paulo, SP, Brasil
\\{\tt is@ime.usp.br}
\\{\tt http://www.ime.usp.br/\~{}is/}
}
 
\date{28 de outubro de 2002}

\begin{document}\maketitle

\begin{flushright}
\begin{quote}
  {\sl
Quando se proclamou que a Biblioteca abarcava todos os livros, a primeira
impressão foi de extravagante felicidade. Todos os homens sentiram-se senhores
de um tesouro intacto e secreto. Não havia problema pessoal ou mundial cuja
eloqüente solução não existisse: em algum hexágono.

[...]

À desmedida esperança sucedeu, como é natural, uma depressão excessiva. A
certeza de que alguma prateleira em algum hexágono encerrava livros preciosos
e de que esses livros preciosos eram inacessíveis afigurou-se quase
intolerável.

Jorge Luis Borges, A Biblioteca de Babel, 1941.~\cite{Borges:01}.
%http://www.paralibros.com/libros/basicos/l02borg.htm
}   
\end{quote}
\end{flushright}

\section{Um sonho: o oráculo bibliográfico}

De uma forma ou de outra, venho atuando há 40 anos na área científica da
computação. Com certeza, os cenários mudaram muito neste período e, com
certeza também, mudarão muito mais ainda!

Durante estes anos todos venho sonhando, e cada vez mais intensamente, com um
assistente virtual que pudesse ser o meu oráculo bibliográfico. Tento me
explicar melhor. Imagino que este assistente conheça toda a literatura
científica, com todos os pormenores. Ademais, ele está à minha disposição a
qualquer hora, em qualquer lugar, respondendo as minhas infindáveis perguntas
sobre a literatura científica. Felizmente, o meu assistente imaginário adora
compartilhar o seu conhecimento e orgulha-se da imensidão e da precisão do seu
saber, a que sempre recorre com rigorosa neutralidade.

Sou forçado a sonhar com este assistente miraculoso porque sinto-me cada vez
mais incapaz para acompanhar a literatura científica e sinto também que
preciso de ajuda. Não é para menos. Existem hoje 20 mil publicações
científicas periódicas, com arbitragem, que publicam dois milhões de artigos a
cada ano. O volume total desses artigos deve ser da ordem de 20 ou 30 milhões
de páginas por ano. Encadernados em papel bíblia, tal volume ocuparia uma
estante de um quilômetro de extensão linear! Só mesmo tendo um assistente para
ler (e decorar) isto tudo, a uma velocidade de três metros de estante por dia,
ano após ano.

Como não tenho sucesso em encontrar o meu assistente imaginado, eu, como quase
todos os outros pesquisadores, entrincheiro-me atrás de uma especialização
rígida. Com isto, o volume de literatura a ser lida diminui muito e,
estreitando bastante a abertura da especialização, ele se adapta às
disponibilidades de cada um. Mas, será que esta é uma boa idéia? Tenho as
minhas dúvidas, em especial nesta época de enorme efervescência da pesquisa,
principalmente nas áreas multi-disciplinares. A especialização muito rígida
certamente dificulta a comunicação inteligente até mesmo entre especialidades
vizinhas. O que dizer, então, de disciplinas distintas?

Nos meus sonhos, dá-me grande prazer também imaginar que eu poderia
contribuir, ainda que modestamente, para o conhecimento enciclopédico deste
assistente. Faria isto disponibilizando para ele os resultados das minhas
pesquisas, para que ele possa incorporá-los ao seu conhecimento e usá-los ao
ajudar outros pesquisadores. É uma forma singela que encontro para retribuir
os imensos benefícios que tiro do meu assistente desinteressado.

\section{A boa notícia: o oráculo está a caminho}

% citeseer (nem sempre mostra esta linha, mas insistindo, chegamos lá
% Indexing over 500,000 documents

O convívio com a Internet nos últimos dez anos permite concluir que o oráculo
bibliográfico que procuro é tecnicamente viável. De fato, nesta seção
procurarei convencer o leitor de que esta façanha é perfeitamente possível e
que ela já está realizada, é operacional e livremente acessível em segmentos
restritos da literatura científica. Ademais, tais segmentos manipulam uma
quantidade tal de documentos que é perfeitamente possível concluir que não há
empecilhos tecnológicos para a realização do meu sonho.

A notícia mais importante é que os métodos sintáticos de indexação e os de
ordenação por relevância progrediram fantasticamente nos últimos anos. Faremos
inicialmente um rápido passeio por estes mecanismos de uso geral.

A ponta mais visível destas tecnologias são os motores de busca. O primeiro
grande impacto foi o advento do motor da
AltaVista~\cite{AltaVista,SeltzerRR:97}, em fins de 1995. Ele conseguiu
indexar o conteúdo integral da teia mundial pública e implementar um mecanismo
extraordinariamente eficiente de consultas dos seus índices através da rede.

Surgiu, em seguida, o Google~\cite{Google} que, mantendo todos os valores da
AltaVista, conseguiu evoluir substancialmente introduzindo uma ordenação por
relevância das páginas selecionadas. Infelizmente, não temos condições de
elaborar aqui sobre as tecnologias usadas, até porque muitos dos seus detalhes
são mantidos em segredo.  Mas, quem usa o Google regularmente sabe que ele
recompensa uma pergunta bem feita com uma pontaria certeira para o objeto
procurado. Experimente buscar ``livro verde'' lá e confira que a primeira
indicação vai para o sítio do ``Livro Verde'' do programa da Sociedade da
Informação no Brasil~\cite{LivroVerde:00}.

Vale a pena observar que o Google indexa, hoje, dois e meio bilhões de
páginas.  Esta montanha de informações é processada de forma
extraordinariamente eficiente. Uma consulta típica leva um décimo de segundo.
A consulta ``Linux'', por exemplo, demora meio segundo para retornar 50
milhões de páginas, cuidadosamente ordenadas de acordo com a sua reputação.

Recentemente, o Google lançou mais um serviço de características
inacreditáveis, investindo sempre nos aspectos sintáticos do texto. Estamos
nos referindo à sua página de notícias, a news.google.com~\cite{NewsGoogle}.
Este serviço monitora continuamente quatro mil sítios de notícias, entre eles
o New York Times, o Washington Post, a BBC, o CNN, etc. De forma inteiramente
automática, isto é, sem a intervenção de editores humanos, ele digere e
classifica as novidades e a partir delas prepara um resumo com as notícias
mais relevantes. Este resumo é constantemente atualizado. O resultado é um
portal de notícias muito dinâmico, feito sem a intervenção de editores
humanos. De fato, o portal resulta dos cálculos de algoritmos, cuidadosamente
ajustados, em que estão codificados todos os critérios usados para o
agrupamento das notícias (evitando repetições) e a ordenação da sua
importância. A nossa ênfase aqui está em apontar que os métodos sintáticos
tornaram-se poderosos a ponto de possibilitar um serviço tão complexo como
este, inimaginável poucos anos atrás.

E na área da literatura científica, existe algo comparável? Sim! Os
laboratórios da NEC investiram, nos últimos anos, em um serviço que responde
pelos nomes de ResearchIndex ou
CiteSeer~\cite{CiteSeer,Lawrence:01,LawrenceGB:99}. Este serviço vasculha
constantemente a Internet procurando identificar artigos científicos na área
de Ciência da Computação.  Encontrando um artigo, o CiteSeer desmonta o seu
texto e indexa todas as palavras que nele ocorrem. Mais ainda, ele anota todas
as referências bibliográficas citadas no artigo e usa estes dados para
estabelecer um índice de relevância para os artigos catalogados. Tal índice é
usado na ordenação das respostas a todas as consultas. As referências são
usadas também para localizar os trabalhos que se basearam num dado artigo.
Além de permitir a medida do impacto do artigo em questão, este aspecto
permite navegar prospectivamente na literatura científica, explorando as
conseqüências de uma dada idéia.

O CiteSeer é restrito, ainda, para a área da Ciência da Computação. Ainda
assim, ele já indexa mais de 500 mil documentos. Embora nem todos tenham os
seus textos completos eletronicamente acessíveis, o serviço existente já
demonstra que é tecnologicamente viável estabelecer uma biblioteca digital
completa, ricamente indexada, abrangendo toda a literatura científica.

Apontamos, finalmente, que é possível combinar o conhecimento e os critérios
dos dois serviços: o Google e o CiteSeer. Basta fazer uma consulta ao Google,
restringindo o espaço de busca para as páginas alojadas no CiteSeer. A busca
Google ``search engine site:citeseer.nj.nec.com'' retorna as páginas do
CiteSeer que contém as palavras ``search'' e ``engine'', ordenadas de acordo
com os critérios de reputação do Google. O resultado é quase sempre muito útil
para localizar uma informação procurada.

%http://citeseer.nj.nec.com/rd/0/http%3AqSqqSqwww.google.comqSqsearch%3Fq%3Dsite%253Aciteseer.nj.nec.comqPqsearchqPqengineqAqbtnG%3DGoogleqPqSearch

Enfim, espero ter convencido o leitor de que o oráculo bibliográfico dos meus
sonhos é perfeitamente viável. O uso contínuo do CiteSeer vem reforçando o meu
apetite por um serviço universal deste tipo.  Universal quanto aos artigos
acessíveis e universal, também, na inclusão de todas as áreas científicas.
Infelizmente, existem ainda algumas dificuldades antes que possamos chegar ao
meu oráculo sonhado, como veremos na próxima seção.

\section{A má notícia: é preciso superar algumas dificuldades}

A má notícia é que o avanço tecnológico apontado não garante, por si só, a
realização do sonhado oráculo bibliográfico. Há várias dificuldades a serem
enfrentadas antes de termos um repositório completo e livremente acessível de
toda a literatura científica.

De forma simplificada, as dificuldades tem suas raízes num mecanismo complexo
que foi montado, predominantemente nos últimos sessenta anos, para o
financiamento e registro da pesquisa científica. É um mecanismo com múltiplos
atores e segmentos, cada um exercendo suas funções específicas num sistema que
adquiriu alta credibilidade e estabilidade. Ademais, este mecanismo é
essencial para o progresso de todas as ciências e é amplamente utilizado na
distribuição dos recursos disponíveis dentro do sistema. As possibilidades
abertas pelo registro e disseminação da literatura científica através da
Internet questionam ou desafiam muitos dos valores aceitos no sistema vigente
e os segmentos atingidos procuram se mobilizar e se defender de eventuais
prejuízos que temem. É importante observar, porém, que não há nenhuma
contradição essencial, de nenhum valor básico, entre o sistema estabelecido de
ciência e tecnologia e os novos paradigmas propostos para o registro e
disseminação da literatura científica.

Um dos mecanismos mais importantes que intervém decisivamente no sistema
vigente é a instituição da propriedade intelectual. Estabeleceu-se uma prática
onde o autor transfere os seus direitos autorais para a entidade que publica
o seu trabalho. A partir deste momento, o editor passa a ter uma enorme
influência sobre a disseminação do trabalho. Por outro lado, o editor acaba
detendo uma extraordinária concentração de direitos autorais que usa de acordo
com os seus interesses e suas próprias percepções. Esta situação é ilustrada
numa entrevista recente que Derk Haank, Presidente da Reed Elsevier, a maior
editora científica atual, deu à Information Today~\cite{Kaser:02}.

% http://www.infotoday.com/it/feb02/kaser.htm

Não é nosso propósito entrar aqui nos detalhes desta situação, que são
complexos. Remetemos o leitor para artigos muito lúcidos de Andrew
Odlyzko~\cite{Odlyzko:95} e de Peter Lyman~\cite{Lyman:97a} sobre o tema.
Apontamos, também, uma discussão muito rica e abrangente que foi patrocinada
pela revista Nature, em 2001, sobre o acesso eletrônico à literatura
científica~\cite{ButlerC:01}.  Foram ouvidos todos os segmentos envolvidos na
discussão e procurou-se dar a oportunidade de manifestação para todos os
pontos de vista.

Ao mesmo tempo, estão surgindo vários movimentos, quase sempre iniciados por
pesquisadores, no sentido de estabelecer um repositório completo e livremente
acessível da literatura científica.  Acreditamos que uma das maiores
inspirações para estes movimentos seja o sucesso retumbante do movimento de
software livre, iniciado 18 anos atrás por Richard Stallman, e que hoje,
inquestionavelmente, é um fator determinante no mercado de
software~\cite{Raymond:99}, com importantes desdobramentos, também, na
formulação dos impactos sociais da Internet~\cite{Lessig:99,Lessig:01}.
Gostaríamos de elencar algumas iniciativas no sentido apontado.

Talvez a iniciativa mais antiga seja um movimento lançado por Stevan Harnad
propondo que cada autor arquive eletronicamente o texto completo dos seus
próprios trabalhos~\cite{Harnad:94,Harnad:02}. Denomina-se a isto de
``self-archiving''.  Existem cada vez mais sistemas de software (livre) que
facilitam este arquivamento, entre eles citamos o eprints~\cite{eprints},
idealizado pelo próprio Harnad.

Uma evolução importante da proposta do Harnad é a ``Open Archives
Initiative''~\cite{OAI}, que sistematiza os protocolos de troca de informações
bibliográficas e organiza tanto a disponibilização local dos dados (que podem
ou não conter o texto completo) quanto a sua integração global, por assim
chamados provedores de serviços. Os protocolos são abertos e espera-se que
este mecanismo leve à realização do oráculo bibliográfico.  Isto, porém, passa
pela adesão maciça de autores e de instituições acadêmicas a estas práticas e
a estes protocolos. Há grandes avanços nesta direção, mas o progresso é um
pouco lento.

A terceira iniciativa que mencionamos é o movimento ``Public Library of
Science''~\cite{PLoS}, lançado no ano passado por pesquisadores ilustres das
áreas biológicas. Foi um movimento que atingiu grande adesão e que motivou o
debate mencionado em Nature. O movimento não conseguiu, porém, atingir o seu
objetivo, que revelou ser ambicioso demais.

O movimento mais recente para o estabelecimento de um repositório completo e
livremente acessível da literatura científica é a ``Budapest Open Access
Initiative'', BOAI~\cite{BOAI}. Este movimento é mais abrangente, menos
ambicioso em termos de resultados imediatos e mais prático do que o ``Public
Library of Science''. Ele foi lançado no início de 2002 e desde lá vem
conseguindo adesões importantes. Seu principal mérito, ao nosso ver, é
incentivar a disseminação da prática do ``self-archiving'' descrito
anteriormente. A adesão da comunidade científica, porém, é um tanto lenta,
infelizmente, e caso não se acelere, a realização do repositório que
procuramos sofrerá atrasos.

\section{À guisa de conclusão}

Este artigo visa realçar dois objetivos. De um lado, queríamos chamar a
atenção do leitor para o imenso valor que um repositório completo e livremente
acessível da literatura científica teria como uma ferramenta de apoio à
pesquisa. Além da disponibilização dos trabalhos propriamente ditos, este
repositório permitiria também o processamento desta massa de textos por
computadores. Isto, por sua vez, colocaria um assistente virtual, com pleno
conhecimento de toda a literatura científica, à disposição de cada
pesquisador, abrindo possibilidades que são difíceis de serem avaliadas com
precisão, em função do poder insuspeito embutido nestes mecanismos.

O segundo objetivo era chamar a atenção para o fato de que a realização desta
façanha depende, antes de mais nada, da atitude individual de cada um de nós,
os pesquisadores. Somos uma corporação tradicionalmente dedicada à troca
generosa de informação científica. Munidos deste espírito fomos os pioneiros
no uso da Internet e estabelecemos, assim, um novo paradigma de comunicação
que incorpora, na sua própria arquitetura, os nossos valores liberais de troca
de informações.  Não há porque supor que não nos empenhemos na realização
deste novo objetivo, tão nobre, fascinante e útil quanto o anterior.

O caminho proposto para estabelecer o repositório universal da literatura
científica, de livre acesso, está claro também, e é fácil de ser trilhado.
Basta que cada grupo de pesquisa ou departamento instale e mantenha atualizado
um servidor das informações bibliográficas e dos textos completos de seus
próprios artigos científicos. A instalação dos servidores é simples e os
recursos de software necessários estão livremente disponíveis. Quanto aos
direitos autorais, está se espalhando cada vez mais entre os pesquisadores a
atitude recomendada pelo movimento de ``self-archiving'' de transferir os
direitos autorais da publicação, sujeito à retenção do direito de o autor
arquivar o próprio trabalho segundo os padrões da ``Open Archives Inititive''
(OAI). Veja os detalhes em~\cite{Harnad:02}.

%http://www.soros.org/openaccess/help.shtml

%http://www.nature.com/nature/debates/e-access/Articles/harnad.html
%authors can ask the journal to retain their right to give away that draft
%online by self-archiving it

%http://www.ecs.soton.ac.uk/~harnad/Tp/resolution.htm#Harnad/Oppenheim
%I hereby transfer to [publisher or journal] all rights to sell or lease the
%text (on-paper and on-line) of my paper [paper-title]. I retain only the right
%to distribute it for free for scholarly/scientific purposes, in particular,
%the right to self-archive it publicly online on the Web.

No Departamento de Ciência da Computação do Instituto de Matemática e
Estatística da USP está sendo montando um servidor com as características
acima~\cite{Coruja}, onde serão mantidos apontadores atualizados para a
tecnologia usada e para os recursos que facilitam a instalação de servidores
semelhantes.

Acreditamos que a realização cooperativa do repositório universal da
literatura científica, de livre acesso, seja mais uma oportunidade para
evidenciarmos o enorme potencial da Internet para uma finalidade nobre e até
mesmo fascinante. Cabe a cada um fazer a sua decisão, tomar a sua atitude, com
os seus próprios trabalhos. E quanto mais cedo for, melhor!

Acreditamos que a comunidade acadêmica está na iminência de realizar esta
façanha, que terá conseqüências marcantes sobre o aprimoramento da qualidade e
sobre a disseminação da pesquisa científica. Ademais, esta façanha aliviaria,
também, a depressão justamente temida por Jorge Luis Borges, mencionada na
citação inicial. Deixar passar esta oportunidade seria algo imperdoável!

%\addcontentsline{toc}{section}{Referências}

% %% para versao simon.tex comentar as linhas seguintes e incluir FILE.bbl
% \bibliographystyle{abbrv}
% \bibliography{edic}
% %% fim das linhas a serem comentadas para versao simon.tex

\begin{thebibliography}{10}

\bibitem{Borges:01}
J.~L. Borges.
\newblock {\em Ficções}.
\newblock Globo, 2001.
\newblock 3a. ed.

\bibitem{ButlerC:01}
D.~Butler and P.~Campbell.
\newblock {Future e-access to the primary literature}.
\newblock {\em Nature WebDebates}, 2001.
\newblock {\tt http://\-www.\-nature.\-com/\-nature/\-debates/\-e-access/}.

\bibitem{Harnad:94}
S.~Harnad.
\newblock A subversive proposal.
\newblock In A.~Okerson and J.~{O'Donnell}, editors, {\em Scholarly Journals at
  the Crossroads}. Association of Research Libraries, 1995.
\newblock {\tt http://\-www.\-arl.\-org/\-scomm/\-subversive/\-toc.\-html}.

\bibitem{Harnad:02}
S.~Harnad.
\newblock {For Whom the Gate Tolls? How and Why to Free the Refereed Research
  Literature Online Through Author/Institution Self-Archiving, Now.}, 2002.
\newblock {\tt
  http://\-cogprints.\-ecs.\-soton.\-ac.\-uk/\-archive/\-00001639/} ou {\tt
  http://\-www.\-cogsci.\-soton.\-ac.\-uk/\-{}~harnad/\-Tp/\-resolution.\-htm}.

\bibitem{Kaser:02}
D.~Kaser.
\newblock {Ghost in a Bottle, Elsevier Science chairman Derk Haank responds to
  the Public Library of Science initiative}.
\newblock {\em Information Today}, 19(2), 2002.
\newblock {\tt http://\-www.\-infotoday.\-com/\-it/\-feb02/\-kaser.\-htm}.

\bibitem{Lawrence:01}
S.~Lawrence.
\newblock Online or invisible?
\newblock {\em Nature}, 411(6837):521, 2001.
\newblock {\tt http://\-citeseer.\-nj.\-nec.\-com/\-lawrence01online.\-html/}.

\bibitem{LawrenceGB:99}
S.~Lawrence, C.~L. Giles, and K.~Bollacker.
\newblock Digital libraries and autonomous citation indexing.
\newblock {\em IEEE Computer}, 32(6):67--71, 1999.
\newblock {\tt http://\-citeseer.\-nj.\-nec.\-com/\-lawrence99digital.\-html}.

\bibitem{Lessig:99}
L.~Lessig.
\newblock {\em {CODE} and other laws of cyberspace}.
\newblock Basic Books, 1999.

\bibitem{Lessig:01}
L.~Lessig.
\newblock {\em The future of ideas, the fate of the Commons in a connected
  world}.
\newblock Random House, 2001.

\bibitem{Lyman:97a}
P.~Lyman.
\newblock Digital documents and the future of the academic community.
\newblock Scholarly Communication and Technology, April 1997.
\newblock Keynote address. See {\tt
  <http://\-arl.\-cni.\-org/\-scomm/\-scat/\-lyman.\-html>}.

\bibitem{Odlyzko:95}
A.~Odlyzko.
\newblock Tragic loss or good riddance? the impending demise of traditional
  scholarly journals.
\newblock {\em Intern. J. Human-Computer Studies}, 42:71--122, 1995.
\newblock {\tt
  http://\-www.\-dtc.\-umn.\-edu/\-{}~odlyzko/\-doc/\-eworld.\-html}.

\bibitem{Raymond:99}
E.~S. Raymond.
\newblock {\em The Cathedral \& the Bazaar. Musings on Linux and Open Source by
  an Accidental Revolutionary}.
\newblock O'Reilly \& Associates, 1999.

\bibitem{SeltzerRR:97}
R.~Seltzer, E.~J. Ray, and D.~S. Ray.
\newblock {\em The {AltaVista} Search Revolution}.
\newblock Osborne McGraw-Hill, Berkeley, 1997.

\bibitem{AltaVista}
{AltaVista - The Search Company}.
\newblock {\tt http://\-www.\-altavista.\-com/}.

\bibitem{BOAI}
{Budapest Open Access Initiative}.
\newblock {\tt http://\-www.\-soros.\-org/\-openaccess/}.

\bibitem{CiteSeer}
{CiteSeer: The NEC Research Institute Scientific Literature Digital Library}.
\newblock {\tt http://\-citeseer.\-nj.\-nec.\-com/}.

\bibitem{Coruja}
{Coruja: servidor de ``eprints'' do Departamento de Ciência da Computação do
  IME-USP}.
\newblock {\tt http://\-coruja.\-arca.\-ime.\-usp.\-br/}.

\bibitem{eprints}
{EPrints.org - Self-Archiving and Open Archives}.
\newblock {\tt http://\-www.\-eprints.\-org/}.

\bibitem{Google}
{Google}.
\newblock {\tt http://\-www.\-google.\-com/}.

\bibitem{NewsGoogle}
{Google News}.
\newblock {\tt http://\-news.\-google.\-com/}.

\bibitem{LivroVerde:00}
{Sociedade da Informação no Brasil - Livro Verde}, 2000.
\newblock {\tt
  http://\-www.\-socinfo.\-org.\-br/\-livro\_verde/\-download.\-htm}.

\bibitem{OAI}
{Open Archives Initiative}.
\newblock {\tt http://\-www.\-openarchives.\-org/}.

\bibitem{PLoS}
{Public Library of Science}.
\newblock {\tt http://\-www.\-publiclibraryofscience.\-org/}.

\end{thebibliography}

\end{document}