Passer au contenu

Google vous utilise à votre insu pour numériser des livres

Google Books (lancé en 2004) et ses quinze millions de livres numérisés représentent de loin la plus grande bibliothèque numérique du monde. Une prouesse que la…

Google Books (lancé en 2004) et ses quinze millions de livres numérisés représentent de loin la plus grande bibliothèque numérique du monde. Une prouesse que la firme Californienne n’aurait en réalité pas accompli seule.

En effet, tout commence en 2009 lorsque Google se décide à acheter reCaptcha, une start-up spécialisée dans (vous l’aurez deviné): les captchas, ces petites images à déchiffrer et qui servent à distinguer les robots des humains.

Un captcha est toujours composé de deux mots dont le premier est un mot “test” utilisé pour vérifier si vous êtes un humain ou une machine. Tandis que le second est en réalité un mot contenu dans un livre numérisé que Google n’est pas parvenu à déchiffrer. Soumis à de nombreux utilisateurs, ce mot est enregistré par l’algorithme Google au bout de plusieurs réponses identiques de façon à ce que, par la suite, le système puisse plus facilement le reconnaître. Et c’est ainsi que nous, petits internautes, nous contribuons involontairement à parfaire la numérisation des livres de Google Books.

Selon le magazine américain Science, si tous les captchas utilisées sur la toile étaient mis à profit, nous pourrions retranscrire environ 160 livres par jour.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

53 commentaires
  1. C’est une bonne idée je trouve, ça fait avancer la numérisation. Après, en terme de com’, c’est sûr que c’est pas le plus fin mais la finalité n’est pour moi pas discutable.

  2. Cela fait un moment que ce système était connu tout de même, mais j’en ai entendu parler par hasard, je comprends que certaines personnes peuvent ne pas savoir 🙂

  3. Non, ce n’est pas nouveau, l’info est disponible depuis que Google à justement acheté cette boite. Soit il y a deux ans maintenant. 😉

  4. pour l’instant la toile se sert, à notre insu de nos connaissances ………. bientôt la matrice se servira de notre énergie !!!!!!!!!!! 😡

  5. En même temps c’est pas con comme façon de fonctionner, comme ça quand on se tape un captcha on se fais pas chier inutilement 🙂

  6. marrant comment ca me fait penser à hypérion (de Dan Brown)…

    Le technocentre qui exploite les humains à leur insu

  7. je me trompe peut être mais google l’avait expliquer il y a longtemps.
    tant qu’il mette pas une pub a la place ou il faut taper un slogan qui te rentre bien ds le crane ça va

  8. @Vaal : eh bien moi je ne le savais pas et je trouve que c’est une bonne idée … par contre, c’est parfois difficile de se sentir bête face à des personnes qui ont la connaissance absolue comme toi 😉

    @Tardu : je m’étais effectivement rendu compte que le deuxième mot passait même si on avait mal tapé 😉

    @Nicoulou : tu as que ça à faire de regarder les conditions d’utilisations de reCaptacha ?

  9. Vieille info ou pas, je salue un article bien écrit, expliquant les tenants et les aboutissants avant d’en arriver au fait.

    C’était un plaisir à lire !

  10. c’est pas nouveau comme info!!! et Google ne s’en est jamais caché…
    C’est une idée plutôt bonne, et qui est utile en plus!!!!

  11. Ouai cette news est vieille…

    Mais c’est TRES FACILE de savoir quel mot est le captcha, et lequel est issu du livre.
    Dans votre illustration c’est “confisqué(e)” qu’ils veulent numériser.
    Du coup, a chaque fois pour ce mot je rentre une vulgarité.

    Ici, j’aurai mis “connard lantcle”.
    C’est petit comme humour, mais ca me fait marrer de pourrir leur base, et ca passe très bien 🙂

  12. “Selon le magazine américain Science, si tous les captchas utilisées sur la toile étaient mis à profit, nous pourrions retranscrire environ 160 livres par jour.”
    Je pense qu’ils font plusieurs vérifications pour chaque mot à cause de nos amis 4chaniens qui écrivent “nigger” à la place du second mot^^

  13. C’est pour cela que je propose que nous marquions tous connard pour le captcha, si le mot arrive plusieurs fois, il sera bien dans le livre et trololol….

  14. le risque à terme, c’est qu’à force d’aider un robot à reconnaitre les caractères, il sera de plus en plus difficile d’empêcher un bot de se faire passer pour un humain avec un captcha.

    bref google scie la branche sur laquelle ils sont assis.

  15. @urzhiataer, Hypérion c’est de Dan Simmons, pas Dan Brown

    Sinon c’est vrai que je connaissait l’info depuis un certain temps, et ça me motive peut être plus à déchiffrer correctement certains Captcha

  16. Ca c’est du déterrage de vieux sujets… Ca fait juste en tout cas plus d’une année que c’est le cas et que c’est clairement décrit sur le site recaptcha…

  17. Le plus drôle dans cet article (dont la news est effectivement bien vieille), c’est que tous les commentaires qui disent que c’est vieux ont des “-“.
    Ce n’est pas parce qu’on dit que la news est ancienne et que vous, vous ne saviez pas, qu’il faut être aigri et nous en vouloir de nous tenir au courant, quand l’actualité EST une actualité ^^ (je parle aux personnes cliquant sur les “-” pas au rédacteur de la news ;))

  18. Ouais je l’avait appris il y a peu (merci secouchermoinsbete.com) et j’espère que le type qui à imaginé ça mourra riche car c’est vraiment une super idée! Mettre des bâtons dans les roues des bots et faire collaborer des milliers d’internautes à la numérisation… Du tout bon!

    Enfin ce n’est que mon point de vue! 🙂

  19. @Vaal : Moi je ne le savais pas. Tu n’avais qu’à faire un article là dessus dès que tu as appris ça !
    Merci au JDG pour l’info.

  20. moi je savais pas, et je trouve que c’est une très bonne idée de faire contribuer tout le monde sur ce type de projet

  21. “C’est pas nouveau, c’est pas nouveau…” béh moi je ne le savais pas et je suis bien content de l’apprendre. Merci le JDG. 😀

  22. @ alphacentaury : Merci tu as dit tout ce que je pensais non mais sérieux il nous font saoul tout c’est je sais tout bande de mongol on dirait des gamin de 10 ans et bien moi je savais déjà heiin oualala trop de la chance comment je suis trop jaloux tu savais un truc trop important dans la vie merci le JDG parce que moi je ne le savais pas !

    PS : On se voit à la Geeks Live 😀

  23. Pas idiot comme système.
    Pour ceux qui parlent de pourrir la base de donné, excusez moi, mais quel intérêt ?
    Plus il y aura de copies (papier/numérique etc.) d’un savoir quelconque, plus il a de chance d’être préservé.

  24. Le problème avec ce genre de trucs, c’est l’utilisation qui peut en être faite. Si livre du domaine public et gratuit… OK.
    Mais rien ne garantit qu’il n’est pas utilisé pour du livre payant… et là, grosso modo, tu contribues à corriger la typo du livre sans contrat de travail avec la tune qui rentre dans les poches de Google et éditeur…

    Et ce point-là, il n’a jamais été spécifié nulle part dans leurs conditions… (et autant dire qu’avec les accords signés avec éditeurs qui ne disposent pas d’un fichier source numérique, l’OCR va tourner à plein… et recatchpa aussi par la même occasion).

  25. Mdr, ça me fait penser à de l’esclavage.

    Mais bon, ce n’est pas si mal finalement. C’est pour nous que Google le fait (en théorie)

  26. Ah merci intéressant ! Je comprends mieux pourquoi je n’échoue jamais à ce genre de captchas : un hyper facile à gauche, et celui de droite plus difficile, mais toujours cool

  27. @Boudieu, 19 oct, 2011, 12:22 #38
    Google te fournit un service de recherche entièrement gratuit, financé par la publicité, que tu n’est d’ailleurs pas obligé de voir (adblock inside). Mais ce n’est pas encore assez, il faut que TOUT soit gratuit.
    Je te propose de payer un euro à chaque fois que tu utilises les services de Google. On va rigoler. A défaut, je propose que ton travail soit gratuit et on rigolera encore plus.
    Perso, c’est peut-être vieux comme nouvelle, mais je ne le savais pas. A partir du moment où c’est dans les conditions d’utilisation de Google, et relativement innoçent, je ne vois pas le problème.

    Un article du JDG impec, sans faute qui pique les yeux, clair, bien mené et informatif. Si Ben pouvait copier.

  28. merci le jdg pour l’info (ce n’est pas vraiment utile comme commentaire mais à la vue de tout ceux qui ici ne comprennent pas qu’un site comme le jdg n’est pas forcé d’avoir toujours l’exclu et qui ne comprennent pas le mot simple qu’est ” informer ” quand en plus c’est fait de manière correcte …. êtes vous c .. pu êtes vous c… ? ah non égocentriques à ne pas savoir qu’il y aura toujours des gens qui pourront passer à côté de telle ou telle news … parce que oui même geek on peut avoir mille et une raisons / contraintes qui peuvent expliquer notre ignorance sur tel ou tel sujet …)

  29. Je ne le savais pas non plus, une bonne idée de Google, et un article qui m’a beaucoup intéressé même si bien trop court ( le travail de traduction effectué par Google mériterai un article plus conséquent ).

  30. Peut on changer le titre de cette news?

    Parce que “à votre insu” ? —> ça à déjà été dit dans les post précédent, ceci est écrit dans les conditions de googles.

    Merci donc de changer le titre de cette news. Ok pour l’information, mais non à la désinformation.

  31. Merci Google de pouvoir nous aider en numérisant les livres, c’est pas l’Etat français ou une société française qui pourrait.

  32. Une des meilleurs idées de Google.
    Tout comme Apple, Google change le monde, pour le bien de tous et pour son bien, évidement.
    Pas en France, pays absolument enquisté dans son conservatisme, que l’on verrai ça.

  33. Ca me rassure, je ne suis donc pas la seule à ne pas pouvoir déchiffrer les atroce captchas de Google, puisque eux-même peinent sur le sujet 😉

Les commentaires sont fermés.

Mode