Google confirme utiliser des données publiques pour ses services d'intelligence artificielle

Google confirme utiliser des données publiques pour ses services d’intelligence artificielle

C’est le secret le moins bien gardé des bots d’intelligence artificielle : pour former leurs modèles de langage, les éditeurs exploitent un maximum de données dont les provenances sont très variées. Google a ainsi confirmé que Bard est « entraîné » à partir d’informations publiques tirées de partout sur internet.

Google a récemment mis à jour sa politique de confidentialité pour préciser que ses services d’intelligence artificielle, comme Bard et Cloud AI, peuvent être formés sur des données publiques extraites du web. Cette décision, qui soulève des questions juridiques et éthiques, témoigne de l’importance croissante des données dans le développement des technologies d’IA. Ce changement, intervenu le 1er juillet, précise que le moteur de recherche peut « utiliser des informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui profitent à nos utilisateurs et au public ».

Questions juridiques et éthiques autour de l’utilisation des données publiques

L’entreprise ajoute qu’elle peut « utiliser des informations publiquement disponibles pour aider à former les modèles d’IA de Google et construire des produits et des fonctionnalités comme Google Translate, Bard et les capacités de Cloud AI ». Un porte-parole de Google a expliqué à The Verge que « notre politique de confidentialité a toujours été transparente sur le fait que Google utilise des informations publiquement disponibles sur le web ouvert pour former des modèles de langage ».

La mise à jour toute récente « précise simplement que de nouveaux services comme Bard sont également inclus. Nous intégrons des principes de confidentialité et des garanties dans le développement de nos technologies d’IA, conformément à nos principes d’IA ». Les conditions d’utilisation mises à jour indique que les « informations publiquement disponibles » sont utilisées pour former les produits d’IA de Google, mais elles ne disent pas comment (ou si) l’entreprise évitera que du contenu protégé par le droit d’auteur soit inclus dans ce pool de données.

De nombreux sites web accessibles au public ont des politiques interdisant la collecte de données ou le scraping web à des fins de formation de modèles de langage volumineux et d’autres outils d’intelligence artificielle. Comment ces interdictions vont-elles s’articuler avec l’approche de Google d’une part, et d’autre part avec les diverses réglementations mondiales comme le RGPD ? Celles-ci protègent les personnes contre l’utilisation abusive de leurs données sans leur autorisation explicite.

La concurrence accrue dans le secteur des chatbots, ainsi que ces nouvelles lois, ont rendu très prudents les fabricants de systèmes d’intelligence générative populaires, comme le GPT-4 d’OpenAI, concernant l’origine des données utilisées pour former ces modèles. La question de savoir si la doctrine du « fair use » s’applique à ce type d’utilisation se situe actuellement dans une zone grise juridique. L’incertitude a déclenché des procès et a incité les législateurs de certains pays à introduire des lois plus strictes pour réglementer la manière dont les entreprises d’IA collectent et utilisent leurs données d’entraînement.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.