Gratos 18/10/2011 à 10h58

Psitt, Google vous utilise à votre insu pour numériser des livres

Martin Untersinger | Journaliste Rue89

Depuis son lancement en décembre 2004, Google Books a numérisé plus de quinze millions de livres, plus que tout le catalogue de la BNF. C’est aujourd’hui, et de loin, la plus grande bibliothèque numérique du monde. Une tâche titanesque que Google n’accomplit pas seul.

Tout commence en 2009, lorsque Google achète reCaptcha, une start-up spécialisée dans les captchas, ces petites images utilisées sur de nombreux sites, qu’il faut déchiffrer et qui servent à distinguer les ordinateurs des humains (pour empêcher le spam, par exemple).

Plus de 100 000 sites ont implémenté le système, qui est utilisé quotidiennement par près de 30 millions d’utilisateurs, qui passent chacun une poignée de seconde à résoudre le captcha. Des centaines d’heures perdues ? Pas pour Google, qui a décidé d’utiliser cette technologie pour poursuivre son travail de numérisation.

Aussi pour de vieilles éditions du New York Times


Capture d’écran de Google.com/ReCaptcha (Google)

Dans chaque captcha proposé par le service, le premier mot est un mot « test », celui qui est utilisé pour savoir si oui ou non vous êtes un humain. Le second, c’est un mot contenu dans un livre numérisé, que Google n’est pas parvenu à déchiffrer. Ce mot est soumis à de nombreux utilisateurs : au bout de plusieurs réponses identiques, le mot est « appris » par l’algorithme de Google, qui pourra mieux le reconnaître dans le futur et qui l’insère dans le texte numérisé.

C’est ainsi que des milliers d’internautes contribuent bien involontairement à numériser des livres pour Google Books ou de vieilles éditions du quotidien américain The New York Times.

Une goutte d’eau ? Loin de là. En 2008, selon le magazine américain Science, si on mettait à profit toutes les captchas utilisées sur Internet, on pourrait retranscrire... 160 livres par jour.

  • 52253 visites
  • 79 réactions
Vous devez être connecté pour commenter : or Inscription
  • Avocat du diable
    Avocat du diable
    Il en faut bien un
    • Posté à 11h59 le 18/10/2011
    • Internaute 165235
      Il en faut bien un

    Ce n’est pas difficile de distinguer le mot tiré d’un livre (donc, inconnu de Google) de celui généré automatiquement.

    Donc, astuce : vous pouvez mettre n’importe quoi pour le mot inconnu.

    Dans la copie d’écran, vous tapez « zlfjrztrt lantcle » et ça passe.

    Si vous n’avez pas envie de travailler gratuitement ;)

  • pmithrandir
    pmithrandir répond à petersburg
    http://www.jaiuneidee.net
    • Posté à 13h57 le 18/10/2011
    • Internaute 90097
      http://www.jaiuneidee.net

    Le pricncipe de la reconnaissance de caractères est que ca se fait en 2 temps :
    - on numérise une page, donc on obtient une image plus ou moins précise de cette page.
    - On lance le décryptage des caractères pour ne plus avoir des images, mais bien du texte en mémoire.(ce qui permet beaucoup plus d’utilisation)

    Pour parler de ca, je ne connaissais pas l’information et je trouve l’idée ingénieuse, même si elle a 3 ans ou plus.

    Grace a cela, 2 services sont proposés aux utilisateurs :
    - le captcha utilisé par de nombreux developpeurs
    - les google book qui sont eux aussi mis a disposition.

    C’est dommage que google n’ait pas d’obligation de fournir une copie de ces données aux états(la BNF) par exemple. On imagine la perte colossale d’information que ce serait si google faisait faillite.

  • podocarpus
    podocarpus
    correcte
    • Posté à 14h54 le 18/10/2011
    • 173840
      correcte

    Comme d’habitude, une bonne idée peut toujours en cacher d’autres un peu moins bonnes : les futurs captcha seront des pubs : Écrire un slogan permet une bien meilleure mémorisation parait-il... Démoniaque...

    Sources :
    Lien

  • Yvon le Zébulon
    Yvon le Zébulon
    L'homme d'esprit n'est pas seul (...)
    • Posté à 11h54 le 19/10/2011
    • Internaute 65781
      L'homme d'esprit n'est pas seul (...)

    Ces petits CAPTCHAS peuvent devenir des PUBS cachées, d’une efficacité retoutable.

    On peut vous faire à votre insu, « ingérer mentalement » le nom d’une marque par exemple, sans même l’écrire vraiment de façon parfaite.

    Des exemples ?

    SMAUSNG : What ?
    RNENUALT : What ?
    TEELFNUEKN : What ?
    TYOOTA : What ?

    ...et GLOGOE CRHMOE, sur ITRENENT pour finir mes exemples.