Todo mundo já precisou digitar as letras e números que via em uma imagem para mostrar que é um humano e não um robô de spam, seja na caixa de comentários de blogs, seja na confirmação de emails, seja para confirmar a inscrição em um site.
Esse sistema é conhecido como “captcha” (Completely Automated Turing Test To Tell Computers and Humans Apart).
Esse teste não é muito popular, pois é um trabalho a mais para quem quer mandar uma mensagem eletrônica ou fazer um comentário. Além do mais, você tem certeza de que é humano, embora às vezes algumas pessoas tenham opiniões diferentes.
Porém, ao mesmo tempo existem diversos livros digitalizados dos quais se possui uma imagem, mas não o texto. Existem programas – os OCRs – que fazem a leitura dessas imagens, mas eles costumam cometer erros.
Por enquanto os únicos que conseguem ter a interpretação satisfatória de 10% das palavras escaneadas são os humanos.
Alguém da Carnegie Mellon University teve a genial idéia de pegar as palavras em que os OCRs ficam em dúvida e oferecê-las automaticamente para diversos sites que precisam de autenticação por captcha.
- Então se você precisa combater o spam em seu site, eu sugiro que você use o sistema reCaptcha e, assim, ajude a preservar livros antigos. Para evitar problemas de acessibilidade para pessoas cegas, eles também oferecem audioCaptchas.
Quando usuários humanos decifram o significado da imagem, elas são reenviadas ao sistema. Assim, cada vez que alguém faz isso, uma nova palavra de um livro antigo deixa de ser uma imagem e passa a ser uma palavra propriamente.
Na verdade, o sistema espera que duas ou mais pessoas concordem com a mesma palavra até que haja confirmação.
Mas considerando o número de pessoas que faz isso diariamente, o trababalho está bem adiantado.
Transformados em textos e armazenados digitalmente, os livros acabam sendo menos manuseados e, ainda assim, continuam acessíveis a todos os pesquisadores e estudantes que deles precisarem na tela de um computador, em um e-book ou reimpressos.
A matéria completa está na BBC News. Um complemento a este artigo é observar que por lá os portais de notícia também não costumam fazer links para suas fontes. Eu tive que correr atrás de todos. Então melhor seria dizer que a matéria incompleta está na BBC News.
Para mim, ficou apenas uma dúvida. Se o sistema não sabe exatamente que palavra é aquela, como saberá que se a pessoa acertou e que, portanto, é de fato uma pessoa e não um robô?









