Google vous utilise à votre insu pour numériser des livres

Par Auré le 19 octobre 2011 à 9h20

Google Books (lancé en 2004) et ses quinze millions de livres numérisés représentent de loin la plus grande bibliothèque numérique du monde. Une prouesse que la…

Google Books (lancé en 2004) et ses quinze millions de livres numérisés représentent de loin la plus grande bibliothèque numérique du monde. Une prouesse que la firme Californienne n’aurait en réalité pas accompli seule.

En effet, tout commence en 2009 lorsque Google se décide à acheter reCaptcha, une start-up spécialisée dans (vous l’aurez deviné): les captchas, ces petites images à déchiffrer et qui servent à distinguer les robots des humains.

Un captcha est toujours composé de deux mots dont le premier est un mot “test” utilisé pour vérifier si vous êtes un humain ou une machine. Tandis que le second est en réalité un mot contenu dans un livre numérisé que Google n’est pas parvenu à déchiffrer. Soumis à de nombreux utilisateurs, ce mot est enregistré par l’algorithme Google au bout de plusieurs réponses identiques de façon à ce que, par la suite, le système puisse plus facilement le reconnaître. Et c’est ainsi que nous, petits internautes, nous contribuons involontairement à parfaire la numérisation des livres de Google Books.

Selon le magazine américain Science, si tous les captchas utilisées sur la toile étaient mis à profit, nous pourrions retranscrire environ 160 livres par jour.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

𝕏

53 commentaires Signaler une erreur

Source : Source

apps Captcha Google Books logiciel

Merch Store, le nouveau service de vente de YouTube

La PS Vita sera chez nous le 22 février 2012

53 commentaires

lnki dit :

19 octobre 2011 à 9:27

C’est pas tout neuf comme info ça non ? 🙂

Répondre
MaW dit :

19 octobre 2011 à 9:28

Ce n’est pas comme si cela était affiché depuis toujours dans les policy de google : http://www.google.com/recaptcha/policy

Répondre
Arelyth dit :

19 octobre 2011 à 9:28

C’est une bonne idée je trouve, ça fait avancer la numérisation. Après, en terme de com’, c’est sûr que c’est pas le plus fin mais la finalité n’est pour moi pas discutable.

Répondre
Beowulf dit :

19 octobre 2011 à 9:28

Cela fait un moment que ce système était connu tout de même, mais j’en ai entendu parler par hasard, je comprends que certaines personnes peuvent ne pas savoir 🙂

Répondre
RCKblog dit :

19 octobre 2011 à 9:29

A l’annonce de l’achat de la boite reCaptcha je l’avais déjà prédis =) héhé

Répondre
Gulielmus dit :

19 octobre 2011 à 9:31

Non, ce n’est pas nouveau, l’info est disponible depuis que Google à justement acheté cette boite. Soit il y a deux ans maintenant. 😉

Répondre
Vaal dit :

19 octobre 2011 à 9:34

C’est une nouvelle ça ?
(Qui ne le savait pas ???)

Répondre
sammmmh dit :

19 octobre 2011 à 9:35

pour l’instant la toile se sert, à notre insu de nos connaissances ………. bientôt la matrice se servira de notre énergie !!!!!!!!!!! 😡

Répondre
Tardu dit :

19 octobre 2011 à 9:35

Ce qui veut dire que si j’ai bon le 1er mot, je peux mettre n’importe quoi pour le 2nd, ça passera ?

Répondre
benjyyyyy dit :

19 octobre 2011 à 9:37

En même temps c’est pas con comme façon de fonctionner, comme ça quand on se tape un captcha on se fais pas chier inutilement 🙂

Répondre
lainiwaku dit :

19 octobre 2011 à 9:40

pourquoi voir le mal partout ?
sa y est , c’est google, donc c’est mal ?!
je vois pas la mal la dedans

Répondre
nicoulou dit :

19 octobre 2011 à 9:40

rien de nouveau, rien de caché, il suffit de se balader sur le site de recaptcha http://www.google.com/recaptcha/learnmore, c’est ecrit en toutes lettres!

Répondre
Twipeep dit :

19 octobre 2011 à 9:40

C’est vraiment bien comme idée ! 😀

Répondre
urzhiataer dit :

19 octobre 2011 à 9:41

marrant comment ca me fait penser à hypérion (de Dan Brown)…

Le technocentre qui exploite les humains à leur insu

Répondre
Deckard dit :

19 octobre 2011 à 9:42

tiens tiens…. et il est où mon contrat de travail ????

Répondre
tetsuhito dit :

19 octobre 2011 à 9:44

je me trompe peut être mais google l’avait expliquer il y a longtemps.
tant qu’il mette pas une pub a la place ou il faut taper un slogan qui te rentre bien ds le crane ça va

Répondre
hugo dit :

19 octobre 2011 à 9:48

la news du passé 😀
“I’m sorry, are you from the past ?” /roy

Répondre
alphacentaury dit :

19 octobre 2011 à 9:48

@Vaal : eh bien moi je ne le savais pas et je trouve que c’est une bonne idée … par contre, c’est parfois difficile de se sentir bête face à des personnes qui ont la connaissance absolue comme toi 😉

@Tardu : je m’étais effectivement rendu compte que le deuxième mot passait même si on avait mal tapé 😉

@Nicoulou : tu as que ça à faire de regarder les conditions d’utilisations de reCaptacha ?

Répondre
mikadannagrram dit :

19 octobre 2011 à 9:53

Vieille info ou pas, je salue un article bien écrit, expliquant les tenants et les aboutissants avant d’en arriver au fait.

C’était un plaisir à lire !

Répondre
Quentin dit :

19 octobre 2011 à 9:54

c’est pas nouveau comme info!!! et Google ne s’en est jamais caché…
C’est une idée plutôt bonne, et qui est utile en plus!!!!

Répondre
iMLovinIt dit :

19 octobre 2011 à 9:57

Ouai cette news est vieille…

Mais c’est TRES FACILE de savoir quel mot est le captcha, et lequel est issu du livre.
Dans votre illustration c’est “confisqué(e)” qu’ils veulent numériser.
Du coup, a chaque fois pour ce mot je rentre une vulgarité.

Ici, j’aurai mis “connard lantcle”.
C’est petit comme humour, mais ca me fait marrer de pourrir leur base, et ca passe très bien 🙂

Répondre
xrtyuio dit :

19 octobre 2011 à 10:06

“Selon le magazine américain Science, si tous les captchas utilisées sur la toile étaient mis à profit, nous pourrions retranscrire environ 160 livres par jour.”
Je pense qu’ils font plusieurs vérifications pour chaque mot à cause de nos amis 4chaniens qui écrivent “nigger” à la place du second mot^^

Répondre
handicap dit :

19 octobre 2011 à 10:12

Moi je ne le savais pas !

Répondre
Trololol dit :

19 octobre 2011 à 10:21

C’est pour cela que je propose que nous marquions tous connard pour le captcha, si le mot arrive plusieurs fois, il sera bien dans le livre et trololol….

Répondre
vink dit :

19 octobre 2011 à 10:28

le risque à terme, c’est qu’à force d’aider un robot à reconnaitre les caractères, il sera de plus en plus difficile d’empêcher un bot de se faire passer pour un humain avec un captcha.

bref google scie la branche sur laquelle ils sont assis.

Répondre
Explicit dit :

19 octobre 2011 à 10:42

@urzhiataer, Hypérion c’est de Dan Simmons, pas Dan Brown

Sinon c’est vrai que je connaissait l’info depuis un certain temps, et ça me motive peut être plus à déchiffrer correctement certains Captcha

Répondre
J4N dit :

19 octobre 2011 à 10:54

Ca c’est du déterrage de vieux sujets… Ca fait juste en tout cas plus d’une année que c’est le cas et que c’est clairement décrit sur le site recaptcha…

Répondre
Zetura dit :

19 octobre 2011 à 11:07

Le plus drôle dans cet article (dont la news est effectivement bien vieille), c’est que tous les commentaires qui disent que c’est vieux ont des “-“.
Ce n’est pas parce qu’on dit que la news est ancienne et que vous, vous ne saviez pas, qu’il faut être aigri et nous en vouloir de nous tenir au courant, quand l’actualité EST une actualité ^^ (je parle aux personnes cliquant sur les “-” pas au rédacteur de la news ;))

Répondre
liquidwolf dit :

19 octobre 2011 à 11:15

Ouais je l’avait appris il y a peu (merci secouchermoinsbete.com) et j’espère que le type qui à imaginé ça mourra riche car c’est vraiment une super idée! Mettre des bâtons dans les roues des bots et faire collaborer des milliers d’internautes à la numérisation… Du tout bon!

Enfin ce n’est que mon point de vue! 🙂

Répondre
krimog dit :

19 octobre 2011 à 11:15

@Vaal : Moi je ne le savais pas. Tu n’avais qu’à faire un article là dessus dès que tu as appris ça !
Merci au JDG pour l’info.

Répondre
Raipak dit :

19 octobre 2011 à 11:23

moi je savais pas, et je trouve que c’est une très bonne idée de faire contribuer tout le monde sur ce type de projet

Répondre
AlexMurphy dit :

19 octobre 2011 à 11:25

“C’est pas nouveau, c’est pas nouveau…” béh moi je ne le savais pas et je suis bien content de l’apprendre. Merci le JDG. 😀

Répondre
vince dit :

19 octobre 2011 à 11:44

En même temps c’est écrit sur le captcha “read books”

Répondre
secosse dit :

19 octobre 2011 à 11:57

@vink pt1 ! c’est pas con !! j’y avais pas pensé… bientôt les Captcha retranscrirons les hyeroglyphe !

Répondre
christobal dit :

19 octobre 2011 à 12:09

je ne le savais pas non plus.
Donc en fait on peut saisir n’importe quoi pour le deuxieme mot ? 🙂

Répondre
Mahad dit :

19 octobre 2011 à 12:12

@ alphacentaury : Merci tu as dit tout ce que je pensais non mais sérieux il nous font saoul tout c’est je sais tout bande de mongol on dirait des gamin de 10 ans et bien moi je savais déjà heiin oualala trop de la chance comment je suis trop jaloux tu savais un truc trop important dans la vie merci le JDG parce que moi je ne le savais pas !

PS : On se voit à la Geeks Live 😀

Répondre
zoroz dit :

19 octobre 2011 à 12:20

Pas idiot comme système.
Pour ceux qui parlent de pourrir la base de donné, excusez moi, mais quel intérêt ?
Plus il y aura de copies (papier/numérique etc.) d’un savoir quelconque, plus il a de chance d’être préservé.

Répondre
Boudieu dit :

19 octobre 2011 à 12:22

Le problème avec ce genre de trucs, c’est l’utilisation qui peut en être faite. Si livre du domaine public et gratuit… OK.
Mais rien ne garantit qu’il n’est pas utilisé pour du livre payant… et là, grosso modo, tu contribues à corriger la typo du livre sans contrat de travail avec la tune qui rentre dans les poches de Google et éditeur…

Et ce point-là, il n’a jamais été spécifié nulle part dans leurs conditions… (et autant dire qu’avec les accords signés avec éditeurs qui ne disposent pas d’un fichier source numérique, l’OCR va tourner à plein… et recatchpa aussi par la même occasion).

Répondre
Blah. dit :

19 octobre 2011 à 12:51

Mdr, ça me fait penser à de l’esclavage.

Mais bon, ce n’est pas si mal finalement. C’est pour nous que Google le fait (en théorie)

Répondre
cslevine dit :

19 octobre 2011 à 12:51

Ah merci intéressant ! Je comprends mieux pourquoi je n’échoue jamais à ce genre de captchas : un hyper facile à gauche, et celui de droite plus difficile, mais toujours cool

Répondre
Ben le lecteur dit :

19 octobre 2011 à 13:07

@Boudieu, 19 oct, 2011, 12:22 #38
Google te fournit un service de recherche entièrement gratuit, financé par la publicité, que tu n’est d’ailleurs pas obligé de voir (adblock inside). Mais ce n’est pas encore assez, il faut que TOUT soit gratuit.
Je te propose de payer un euro à chaque fois que tu utilises les services de Google. On va rigoler. A défaut, je propose que ton travail soit gratuit et on rigolera encore plus.
Perso, c’est peut-être vieux comme nouvelle, mais je ne le savais pas. A partir du moment où c’est dans les conditions d’utilisation de Google, et relativement innoçent, je ne vois pas le problème.

Un article du JDG impec, sans faute qui pique les yeux, clair, bien mené et informatif. Si Ben pouvait copier.

Répondre
antoine dit :

19 octobre 2011 à 13:42

merci le jdg pour l’info (ce n’est pas vraiment utile comme commentaire mais à la vue de tout ceux qui ici ne comprennent pas qu’un site comme le jdg n’est pas forcé d’avoir toujours l’exclu et qui ne comprennent pas le mot simple qu’est ” informer ” quand en plus c’est fait de manière correcte …. êtes vous c .. pu êtes vous c… ? ah non égocentriques à ne pas savoir qu’il y aura toujours des gens qui pourront passer à côté de telle ou telle news … parce que oui même geek on peut avoir mille et une raisons / contraintes qui peuvent expliquer notre ignorance sur tel ou tel sujet …)

Répondre
silent auben dit :

19 octobre 2011 à 15:16

Je ne le savais pas non plus, une bonne idée de Google, et un article qui m’a beaucoup intéressé même si bien trop court ( le travail de traduction effectué par Google mériterai un article plus conséquent ).

Répondre
tewi dit :

19 octobre 2011 à 15:27

ok, intéressant; au fait, ca veut dire quoi “lantcle” le 2eme mot dans le captcha de demo??

Répondre
nargek dit :

19 octobre 2011 à 17:31

Pas con, pas con du tout ! 😀

Répondre
Jack87 dit :

19 octobre 2011 à 18:17

Peut on changer le titre de cette news?

Parce que “à votre insu” ? —> ça à déjà été dit dans les post précédent, ceci est écrit dans les conditions de googles.

Merci donc de changer le titre de cette news. Ok pour l’information, mais non à la désinformation.

Répondre
Bernard_David dit :

19 octobre 2011 à 20:46

Merci Google de pouvoir nous aider en numérisant les livres, c’est pas l’Etat français ou une société française qui pourrait.

Répondre
thebatman dit :

19 octobre 2011 à 21:31

J’ai le choix entre “Je me coucherai moins bête” et “Je le savais déjà !” 😀

Répondre
dalgeek dit :

19 octobre 2011 à 23:53

Quoi? On bosse pour Google sans le savoir et en plus sans salaire….

REVOLUTION ! ! ! ! :-p

Répondre
Garfield dit :

20 octobre 2011 à 15:18

Une des meilleurs idées de Google.
Tout comme Apple, Google change le monde, pour le bien de tous et pour son bien, évidement.
Pas en France, pays absolument enquisté dans son conservatisme, que l’on verrai ça.

Répondre
Silvia dit :

20 octobre 2011 à 22:12

Ca me rassure, je ne suis donc pas la seule à ne pas pouvoir déchiffrer les atroce captchas de Google, puisque eux-même peinent sur le sujet 😉

Répondre
webmarketing dit :

8 novembre 2011 à 2:38

Voilà comment voler du contenu gratuitement ? En l’occurrence le contenu se sont les ebooks. Merci pour l’actu 😉

Répondre