ReCaptcha

Opinião. 2 Fev 2012

ReCaptcha, uma ideia que capta a atenção

No mundo da web somos regularmente confrontados com quebra-cabeças que uma vez resolvidos possibilitam comentar um artigo, enviar um formulário ou efetuar uma compra. Na maior parte das vezes o quebra-cabeças que serve este propósito denomina-se de CAPTCHA,
acrónimo para Completely Automated Public Turing test to tell Computers and Humans Apart, um teste no qual é mostrado uma imagem contendo carateres distorcidos e que devem ser corretamente transcritos pelo utilizador, para que este seja reconhecido como uma pessoa e assim evitar tentativas de SPAM ou outras ações maliciosas para o normal funcionamento de um website.

No entanto a execução deste tipo de testes pode eventualmente ser complicada e incómoda em alguns casos, sendo interpretada pelo utilizador como uma mera perda de tempo. Estima-se que uma pessoa demora em média 10 segundos para submeter o que escreveu. Provavelmente a pessoa que faz o teste não daria o tempo como inútil se soubesse que estaria de alguma maneira a contribuir para algo positivo e produtivo, o que é na realidade a essência do projeto ReCaptcha, surgido na Universidade Carnegie Mellon (Pittsburgh).

Na página do projeto ReCaptcha é possível fazer o download do plugin para embeber em qualquer website mediante duas chaves virtuais que são fornecidas (private key e public key).

Numa página que contenha o plugin para validar o preenchimento de um formulário por exemplo, é apresentada ao utilizador uma imagem contendo duas palavras que devem ser transcritas para um campo de texto de modo a possibilitar o envio do formulário. Das duas palavras apresentadas apenas uma vai ser validada pelo código do plugin e consequentemente permitir o envio do formulário (salvaguardando a segurança do website), a outra é uma palavra digitalizada de um livro ou uma edição de jornal, provavelmente muito antigo(a). Apesar dos computadores conseguirem transcrever texto a partir de imagens digitalizadas de livros (Optical Character Recognition - OCR) a eficácia do processo é bastante mais reduzida em livros antigos pois as formas dos carateres não são tão percetíveis e o contraste dos mesmos com o papel envelhecido não favorece uma boa distinção por parte do computador. É aí que entra a capacidade do ser humano de fazer tal distinção, com distinção: uma das duas palavras do CAPTCHA serve para validar o utilizador, enquanto que a outra (pertencente à digitalização de um determinado livro ou jornal com muitos anos) seguirá para uma base de dados contendo inúmeras transcrições de livros digitalizados. Desta maneira aproveitam-se melhor os 10 segundos que todos os dias cerca de 30 milhões de pessoas empregam para resolver um CAPTCHA (aproximadamente 3.300 milhões de horas).

Pelo facto de serem apresentadas duas palavras fora do contexto surgem por vezes conexões entre ambas no mínimo caricatas, daí que existam websites/blogs específicos para registar este tipo de fenómenos e até mesmo uma espécie de corrente artística derivada do ReCapcha, o captchaArt.

Obviamente que nem sempre é possível uma pessoa transcrever corretamente a palavra digitalizada, mas cruzando as respostas de dezenas de utilizadores para a mesma palavra consegue-se chegar a uma relevância de quase 100% e assim juntar mais alguns carateres a determinada transcrição de determinado livro.

Em média é possível transcrever 160 livros (num só dia). Todas as edições em papel do jornal New York Times já foram digitalmente transcritas graças a este processo. Se não conhecia as vantagens deste plugin, pode-lhe juntar mais uma: a partir de agora estará mais recetivo para preencher o próximo CAPTCHA que lhe for apresentado!

Escrito ao abrigo do novo Acordo Ortográfico

Tony Oliveira