Arma contra spam ajuda a preservar livros antigos

Todo mundo já precisou digitar as letras e números que via em uma imagem para mostrar que é um humano e não um robô de spam, seja na caixa de comentários de blogs, seja na confirmação de emails, seja para confirmar a inscrição em um site.

Esse sistema é conhecido como “captcha” (Completely Automated Turing Test To Tell Computers and Humans Apart).

Esse teste não é muito popular, pois é um trabalho a mais para quem quer mandar uma mensagem eletrônica ou fazer um comentário. Além do mais, você tem certeza de que é humano, embora às vezes algumas pessoas tenham opiniões diferentes.

Porém, ao mesmo tempo existem diversos livros digitalizados dos quais se possui uma imagem, mas não o texto. Existem programas – os OCRs – que fazem a leitura dessas imagens, mas eles costumam cometer erros.

Por enquanto os únicos que conseguem ter a interpretação satisfatória de 10% das palavras escaneadas são os humanos.

Alguém da Carnegie Mellon University teve a genial idéia de pegar as palavras em que os OCRs ficam em dúvida e oferecê-las automaticamente para diversos sites que precisam de autenticação por captcha.

Quando usuários humanos decifram o significado da imagem, elas são reenviadas ao sistema. Assim, cada vez que alguém faz isso, uma nova palavra de um livro antigo deixa de ser uma imagem e passa a ser uma palavra propriamente.

Na verdade, o sistema espera que duas ou mais pessoas concordem com a mesma palavra até que haja confirmação.

Mas considerando o número de pessoas que faz isso diariamente, o trababalho está bem adiantado.

Transformados em textos e armazenados digitalmente, os livros acabam sendo menos manuseados e, ainda assim, continuam acessíveis a todos os pesquisadores e estudantes que deles precisarem na tela de um computador, em um e-book ou reimpressos.

A matéria completa está na BBC News. Um complemento a este artigo é observar que por lá os portais de notícia também não costumam fazer links para suas fontes. Eu tive que correr atrás de todos. Então melhor seria dizer que a matéria incompleta está na BBC News.

Para mim, ficou apenas uma dúvida. Se o sistema não sabe exatamente que palavra é aquela, como saberá que se a pessoa acertou e que, portanto, é de fato uma pessoa e não um robô?

Postado em Variedades.

Sobre o autor

Alessandro Martins

Alessandro Martins foi o criador do blog Livros e Afins. Trabalhou em jornais de Curitiba de 1995 a 2008, quando passou a se dedicar somente a blogs e em especial a este.

Deixe seu comentário