Blogue a Théodule !: Wikipedia

Aucun message portant le libellé Wikipedia. Afficher tous les messages

vendredi 6 octobre 2023

La prochaine grande menace pour l'IA pourrait déjà se cacher sur le web

La prochaine grande menace pour l'IA pourrait déjà se cacher sur le web

Technologie : Les experts en IA préviennent que les attaques contre les ensembles de données utilisés pour former les outils d'apprentissage automatique pourraient avoir des conséquences majeures. Bien sûr, Wikipédia est cité en exemple.

la rédaction de ZDNet

Par Danny Palmer | Lundi 06 Mars 2023

Réaction

plus +

La prochaine grande menace pour l'IA pourrait déjà se cacher sur le web

Les experts de l’intelligence artificielle (IA) et de l’apprentissage automatique (machine learning) mettent en garde contre le risque d’attaques par « empoisonnement » des données, qui peuvent porter atteinte aux grands ensembles de données utilisés pour former les modèles d’apprentissage profond (deep learning) de nombreux services d’IA.

L’empoisonnement des données se produit lorsque des attaquants altèrent les données d’entraînement utilisées pour créer des modèles d’apprentissage profond. Cette action signifie qu’il est possible d’affecter les décisions prises par l’IA d’une manière qui est difficile à suivre.

En modifiant les informations sources utilisées pour former les algorithmes d’apprentissage automatique, les attaques par empoisonnement des données peuvent être extrêmement puissantes. Car l’IA apprend à partir de données incorrectes et peut donc prendre de « mauvaises » décisions qui ont des conséquences importantes.

Split-view poisoning, petit mais costaud

Il n’existe cependant actuellement aucune preuve d’attaques réelles impliquant l’empoisonnement d’ensembles de données à l’échelle du web. Mais un groupe de chercheurs en IA et en apprentissage automatique de Google, de l’ETH Zurich, de NVIDIA et de Robust Intelligence affirme avoir démontré la possibilité d’attaques par empoisonnement qui « garantissent » l’apparition d’exemples malveillants dans des ensembles de données à l’échelle du web utilisés pour former les plus grands modèles d’apprentissage automatique.

« Bien que les grands modèles d’apprentissage profond soient résistants, même des quantités minuscules de "bruit" dans les ensembles de formation (c’est-à-dire une attaque par empoisonnement) suffisent à introduire des erreurs ciblées dans le comportement du modèle », préviennent les chercheurs.

Les chercheurs expliquent qu’en utilisant les techniques qu’ils ont conçues pour exploiter la façon dont les ensembles de données fonctionnent, ils auraient pu empoisonner 0,01 % des ensembles de données d’apprentissage profond les plus importants, et ce avec peu d’efforts et à faible coût. Bien que 0,01 % ne semble pas représenter un grand nombre d’ensembles de données, les chercheurs préviennent que cela est « suffisant pour empoisonner un modèle ».

Cette attaque est connue sous le nom de « split-view poisoning ». Si un attaquant parvenait à prendre le contrôle d’une ressource web indexée par un ensemble de données particulier, il pourrait empoisonner les données collectées, les rendant inexactes, avec le potentiel d’affecter négativement l’ensemble de l’algorithme.

Toujours le trafic de noms de domaines expirés

Un moyen pour les attaquants d’atteindre cet objectif est d’acheter des noms de domaine expirés. Les domaines expirent régulièrement et peuvent ensuite être achetés par quelqu’un d’autre, ce qui constitue une opportunité parfaite pour un empoisonneur de données. « L’adversaire n’a pas besoin de connaître l’heure exacte à laquelle les clients téléchargeront la ressource à l’avenir : en possédant le domaine, l’adversaire garantit que tout téléchargement futur recueillera des données empoisonnées », ont déclaré les chercheurs.

Les chercheurs soulignent que l’achat d’un domaine et son exploitation à des fins malveillantes n’est pas une idée nouvelle. Les cybercriminels l’utilisent pour diffuser des logiciels malveillants. Mais des attaquants aux intentions différentes pourraient potentiellement empoisonner un vaste ensemble de données.

Front-running poisoning, la plaie pour Wikipédia

De plus, les chercheurs ont détaillé un deuxième type d’attaque qu’ils appellent « empoisonnement par anticipation » (front-running poisoning).

Dans ce cas, l’attaquant n’a pas le contrôle total de l’ensemble de données spécifique, mais il est capable de prédire avec précision le moment où une ressource web sera consultée pour être incluse dans un instantané de l’ensemble de données. Grâce à cette connaissance, l’attaquant peut empoisonner l’ensemble de données juste avant que les informations ne soient collectées.

Même si les informations reviennent à leur forme originale, non manipulée, après quelques minutes seulement, l’ensemble de données sera toujours incorrect dans l’instantané pris lorsque l’attaque malveillante était active.

L’une des ressources les plus utilisées pour trouver des données d’apprentissage pour l’apprentissage automatique est Wikipédia. Mais la nature de Wikipédia signifie que n’importe qui peut la modifier - et selon les chercheurs, un attaquant « peut empoisonner un ensemble de formation provenant de Wikipédia en effectuant des modifications malveillantes ».

Prévoir les snapshots, la clé de l’infection gagnante

Les ensembles de données de Wikipédia ne reposent pas sur la page en direct, mais sur des instantanés pris à un moment précis, ce qui signifie que les attaquants qui interviennent au bon moment peuvent modifier la page de manière malveillante et forcer le modèle à collecter des données inexactes, qui seront stockées dans l’ensemble de données de manière permanente.

« Un attaquant qui peut prédire quand une page Wikipédia sera utilisée pour être incluse dans le prochain instantané (snapshot) peut effectuer un empoisonnement immédiatement avant le scrapping. Même si la modification est rapidement annulée sur la page en ligne, l’instantané contiendra le contenu malveillant - pour toujours », ont écrit les chercheurs.

La façon dont Wikipédia utilise un protocole bien documenté pour produire des instantanés signifie qu’il est possible de prédire avec une grande précision l’heure des instantanés des articles. Les chercheurs suggèrent qu’il est possible d’exploiter ce protocole pour empoisonner des pages Wikipédia avec un taux de réussite de 6,5 %.

Ce pourcentage peut sembler faible, mais le nombre de pages Wikipédia et la façon dont elles sont utilisées pour former des ensembles de données d’apprentissage automatique signifient qu’il serait possible d’alimenter les modèles en informations inexactes.

Les chercheurs notent qu’ils n’ont pas modifié de pages Wikipédia en direct et qu’ils ont informé Wikipédia des attaques et des moyens potentiels de s’en défendre dans le cadre du processus de divulgation responsable. ZDNET a contacté Wikipédia pour obtenir des commentaires. Les chercheurs notent également que le but de la publication de l’article est d’encourager d’autres personnes dans le domaine de la sécurité à mener leurs propres recherches sur la manière de défendre les systèmes d’IA et d’apprentissage automatique contre les attaques malveillantes.

« Notre travail n’est qu’un point de départ pour la communauté afin de développer une meilleure compréhension des risques liés à la génération de modèles à partir de données à l’échelle du web », indique le document.

Source : ZDNet.com

jeudi 7 août 2014

Wikipedia : le droit à l’oubli est une « censure de l’information véridique »

L’encyclopédie en ligne prend position contre la décision de la Cour de justice européenne qui nuirait à liberté de l’information. Une réaction qui intervient après que Google a supprimé des liens pointant vers elle.

Wikipedia aura mis du temps à réagir mais prend aujourd’hui la parole avec force contre le droit à l’oubli, reconnu le 13 mai dernier par la Cour de justice européenne. Lors d’une conférence de presse qui s’est tenue ce matin à Londres, trois membres de la fondation Wikimedia ont déclaré que cette disposition constituait une « menace » contre l’encyclopédie en ligne et une « censure de l’information véridique ». Un communiqué envoyé dans la foulée parle, lui, d’un « impact direct et critique » sur Wikipedia.

Depuis l’instauration du droit à l’oubli, n’importe quel internaute peut demander à faire supprimer par un moteur de recherche les liens qui pointent vers des contenus ayant trait à sa vie privée. Le souci pour l’encyclopédie en ligne, c’est que Google lui a notifié la semaine dernière avoir accepté cinq demandes la concernant et supprimé 50 URL pointant vers elle. Selon le site Techcrunch, l’une des requêtes concernerait un article sur une mafia italienne, et une autre porterait un individu ayant passé du temps en prison.

Des suppressions de liens opaques et sans possibilité de recours

« Le projet Wikimedia, y compris Wikipedia, est fondé sur la croyance que n’importe qui n’importe où est en mesure d’avoir accès à la somme de toutes les connaissances. Mais cela n’est possible que si des gens peuvent contribuer et participer à ces projets sans réserve- c’est-à-dire que leur droit à créer du contenu, y compris controversé, doit être protégé », a déclaré le cofondateur de Wikipedia Jimmy Wales lors de la conférence de presse.

Par ailleurs, les membres de la fondation Wikimedia ont souligné le fait que tous les moteurs de recherche n’avertissaient pas les éditeurs de contenus de la suppression des liens. La procédure reste donc opaque et sans possibilité de recours. Dans le communiqué de presse diffusé sur son blog américain, Wikipedia précise : « Les résultats de recherches précises sont en train de disparaître en Europe sans aucune explication publique, aucune preuve réelle, pas de contrôle judiciaire, et aucun processus d'appel. Le résultat est un internet criblé de trous de mémoire, des lieux où les informations gênantes disparaissent tout simplement. »

Une prise de position qui va ravir Google, obligé malgré lui d’appliquer le droit à l’oubli. Rappelons que la société a prié Jimmy Wales d’entrer à son conseil consultatif chargé de réfléchir à la façon de gérer cette question. Mais Wales se défend de tout conflit d’intérêt.

Source :

Wikimedia US

Rechercher sur ce blogue

vendredi 6 octobre 2023

La prochaine grande menace pour l'IA pourrait déjà se cacher sur le web

jeudi 7 août 2014

Wikipedia : le droit à l’oubli est une « censure de l’information véridique »

L’encyclopédie en ligne prend position contre la décision de la Cour de justice européenne qui nuirait à liberté de l’information. Une réaction qui intervient après que Google a supprimé des liens pointant vers elle.

Des suppressions de liens opaques et sans possibilité de recours