busca | avançada
193 mil/dia
1,9 milhão/mês
Segunda-feira, 25/6/2007
Captcha e livros antigos
Ram Rajagopal

O Projeto reCaptcha é uma daquelas idéias que, quando você ouve, imagina: por que não pensei nisso antes?

Os captchas são aquelas imagens que contém palavras que lhe ajudam na autenticação ou quando você se cadastra em um site novo. A idéia é que você pode distinguir entre um computador e uma pessoa, se ela for capaz de reconhecer a imagem que contém uma palavra. Um dos autores do projeto reCaptcha, o professor da CMU Luis Von Ahn, leu uma vez que cerca de 60 milhões de captchas são resolvidos por dia na internet. Se cerca de 5 segundos forem gastos por captcha, sao cerca de 150 mil horas de trabalho, gastos a toa!

Querendo aproveitar toda esta mão de obra gratuita, Dr. Von Ahn teve a seguinte idéia: colocar como parte de um captcha trechos de livros antigos digitalizados que não foram reconhecidos pelo software de reconhecimento de caracteres. O reCaptcha faz com que o captcha tenha duas palavras, ao invés de uma. A primeira, que é uma palavra conhecida, usada para autenticação. A segunda é o desenho de uma palavra scaneada de um livro antigo, mas que não foi reconhecida pelo software de reconhecimento.

Quando o usuário acerta a primeira palavra, o signficado da segunda é anotado. A mesma palavra é apresentada a vários usuários, e uma transcrição com alto índice é gerada a partir da palavra mais freqüentemente transcrita para aquela palavra não reconhecida em particular. Simples e muito bacana, não é mesmo?

Ram Rajagopal
25/6/2007 à 01h36

 

busca | avançada
193 mil/dia
1,9 milhão/mês