• l’année dernière
Transcription
00:00 On va passer à la dernière présentation de ce panel, qui sera faite par Tim Favergeon,
00:13 qui va présenter un article qui est co-écrit par Pedro Ramaciotti-Morales, que vous avez
00:21 pu entendre ce matin.
00:22 Tim, vous êtes doctorant en sciences sociales computationnelles au Media Lab de Sciences
00:28 Po et au Learning Planet Institute.
00:30 L'article que vous présentez s'intitule "Comment les algorithmes de recommandation
00:35 détectent et exploitent les préférences politiques des utilisateurs".
00:38 C'est exact, effectivement.
00:41 Bonjour à tous.
00:43 C'est après-manger, c'est la dernière présentation, donc je vais essayer d'être
00:48 incisif, bref, pour qu'on puisse comprendre un maximum.
00:51 Je suis effectivement Tim Favergeon, je suis effectivement doctorant au Media Lab de Sciences
00:56 Po et on va parler d'algorithmes de recommandation et de préférences politiques des utilisateurs.
01:01 C'est en continuation parfaite avec ce qu'on a dit, puisqu'on a parlé ici de biais,
01:05 on a parlé de polarisation et on a parlé également de bulles de filtre.
01:09 Il y a une grosse question qui se pose en littérature actuellement, c'est est-ce que
01:13 les algorithmes de recommandation, qui ont une part énorme dans le fonctionnement des
01:18 réseaux sociaux, pourraient avoir une responsabilité dans ce genre de mécanisme ?
01:22 Une façon de répondre à cette question, c'est de voir comment ces algorithmes de
01:26 recommandation, dans la façon dont ils fonctionnent, sont reliés réellement avec les opinions
01:30 politiques des utilisateurs et c'est ce que je vais faire juste ici.
01:34 Donc, comme beaucoup de gens dans cette présentation, je vais commencer par parler du DSA, parce
01:41 qu'on est là pour ça finalement.
01:43 Donc, le DSA parle des algorithmes de recommandation et j'ai enlevé les textes juridiques, mais
01:52 pour résumer ce qui est dit, on peut voir deux tendances principales.
01:56 La première, c'est qu'il demande aux plateformes d'expliquer comment les algorithmes de recommandation
02:01 fonctionnent.
02:02 Juste ici, le petit laser ne marche pas.
02:03 Non, dommage.
02:04 J'aime bien, mais bon.
02:06 Du coup, la première, c'est expliquer comment les algorithmes de recommandation fonctionnent
02:10 et de dire quels paramètres sont importants dans les recommandations que se faitent, pourquoi
02:13 une recommandation est faite plutôt qu'une autre.
02:15 Et la deuxième, c'est de ne pas discriminer les utilisateurs en fonction de certaines
02:21 catégories de données personnelles dont font partie la politique.
02:24 Donc, tout ça, c'est effectivement quelque chose sur lequel on est tous d'accord.
02:28 Mais la question qu'on se pose, c'est comment faire déjà à comprendre qu'est-ce qui
02:32 influence un algorithme de recommandation dans son fonctionnement et en particulier,
02:37 comment s'assurer que parmi les paramètres importants dans les algorithmes de recommandation,
02:41 il n'y ait pas également les préférences politiques des utilisateurs, ce qui donc
02:46 conduirait systématiquement à ce qu'on a vu avant comme de la polarisation ou des
02:50 bulles de filtre.
02:51 Donc, le travail que j'ai envie de présenter ici, c'est un travail qui va répondre à
02:56 cette question-là, c'est-à-dire comment on va réussir à comprendre s'il y a des
03:00 opinions politiques dans le fonctionnement des algorithmes.
03:02 Pour résoudre ce genre de questions, donc pour comprendre comment les algorithmes fonctionnent,
03:08 il y a deux principales méthodes qui sont utilisées en littérature.
03:12 La première méthode qui a été la première à être développée, c'est la méthode
03:15 de l'audit.
03:16 Donc, si on prend notre algorithme de recommandation avec ses données entrées, l'algorithme
03:21 et son fonctionnement et les recommandations en sortie, dans l'audit, c'est très simple,
03:26 on prend uniquement les recommandations en sortie et on essaye de comprendre si elles
03:29 correspondent effectivement à ce qu'il y avait d'attendu.
03:32 Donc, c'est ce que font beaucoup de personnes dans les études.
03:35 Par exemple, on va voir l'algorithme de YouTube et on va se dire est-ce qu'il va
03:38 recommander des contenus plutôt de droite, plutôt de gauche et tout ça.
03:41 Il y a une deuxième méthode qui se développe petit à petit avec ce qu'on appelle l'explicabilité
03:47 algorithmique et qui se développe également avec les algorithmes de recommandation, c'est
03:52 l'explication des recommandations.
03:54 Dans cette méthode-là, l'idée ce n'est pas de voir uniquement les recommandations
03:59 mais d'ouvrir ce qu'on appelle la boîte noire des recommandations pour voir le modèle
04:05 à l'intérieur et pour comprendre à l'intérieur du modèle comment le modèle fonctionne,
04:10 quels sont les paramètres réellement influents et en particulier est-ce que dans ces paramètres
04:14 on peut déceler ce qui pourrait être la cause de polarisation ou la cause de radicalisation
04:19 ou de plein d'autres phénomènes.
04:20 Et c'est cette voie que nous, nous choisissons pour plusieurs raisons.
04:26 Déjà parce que c'est celle qui est demandée par l'EDSA en quelque sorte et également
04:31 parce que c'est une voie qui est problème agnostique si on peut.
04:34 En quelque sorte, une fois qu'on a expliqué un modèle, il n'y a pas besoin de refaire
04:37 une analyse pour à chaque fois s'adapter et comprendre si le modèle va correspondre
04:43 à d'autres critères qu'on veut rajouter.
04:44 Une fois qu'on a expliqué le modèle, on peut alors mettre le modèle face à tous
04:48 les critères auxquels on veut le soumettre.
04:50 Donc l'idée ici c'est de construire une méthode d'explication pour les algorithmes
04:56 de recommandation et en particulier d'utiliser pour expliquer ces algorithmes les opinions
05:02 politiques des utilisateurs.
05:03 Donc la raison pour laquelle ce genre de travaux n'a jamais été fait, par exemple
05:08 pour la France, c'est parce que avoir les opinions politiques des utilisateurs, avoir
05:11 les attitudes politiques, c'est compliqué.
05:13 Et c'est également la raison, pour ceux qui suivent le mieux, pour lesquelles j'ai
05:17 collaboré avec Pedro ici, car j'ai besoin de mesurer les attitudes politiques des utilisateurs.
05:26 Donc pour ceux qui ont suivi la méthode qui a été expliquée un peu mieux ce matin,
05:30 je passerai très vite là-dessus, on se base sur comment la structure du réseau est faite
05:35 sur Twitter pour pouvoir positionner les utilisateurs dans un espace d'opinion politique.
05:41 Et ensuite on utilise des dimensions d'experts politiques pour pouvoir scaler ces dimensions-là
05:48 et créer un espace qu'on appelle d'attitude politique.
05:51 Ici pour notre étude, on va garder deux attitudes politiques importantes pour le cadre politique
05:57 français, qui sont l'attitude droite-gauche, bien sûr, qu'on connaît tous, et une autre
06:04 dimension qui est tout aussi explicative de l'espace politique français, qui est l'attitude
06:09 envers les élites et les institutions.
06:12 Donc à quel point les personnes font confiance ou pas aux institutions et aux élites.
06:17 Donc ici on voit un exemple, la distribution des utilisateurs sur cet espace politique.
06:23 Donc on voit que la plupart des utilisateurs se situent légèrement à droite et plutôt
06:26 au centre d'un point de vue élite-anti-élite.
06:28 Donc une fois qu'on a ces attitudes politiques, arrive le travail de l'étude.
06:35 Notre idée, c'est de construire des explications politiques et notre méthode pour l'instant,
06:40 ça va être simplement de faire une preuve de concept, de prendre un algorithme connu,
06:43 de prendre des données réelles, d'entraîner cet algorithme et de regarder à l'intérieur
06:48 de cet algorithme, est-ce qu'on peut trouver des grandeurs politiques, est-ce qu'on peut
06:51 expliquer ces grandeurs politiques, pour pouvoir voir si la méthode peut, disons,
06:57 à une durée de vie et peut être appliquée à d'autres algorithmes plus complexes.
07:00 Le résultat, c'est un petit spoiler mais vous le verrez dans quelques slides, c'est
07:04 que oui, il y a des informations politiques contenues dans le modèle.
07:07 Donc tout ça, qu'est-ce que ça veut dire ? Donc ça c'est la slide qu'il faut suivre,
07:13 si vous avez arrêté de regarder, c'est maintenant qu'il faut vous tourner pour comprendre
07:16 ce qui s'est passé dans cette recherche.
07:17 On a quatre étapes principales dans notre étude.
07:22 Premièrement, on collecte des données, on prend des utilisateurs sur Twitter et les
07:27 URL qu'ils ont partagées sur Twitter également.
07:30 À partir de ça, on peut coder un algorithme de recommandation.
07:33 Un algorithme de recommandation, c'est quoi ? C'est simplement un algorithme qui va prédire
07:37 quelles seraient les nouveaux URL que les personnes aimeraient.
07:39 Ah tiens, vous avez déjà partagé ceci et ceci et ceci, alors vous adorerez partager
07:43 cette autre URL.
07:45 Une fois qu'on a créé un algorithme de recommandation, la plupart des algorithmes
07:49 de recommandation fonctionnent en deux étapes, dont une première étape où on va construire
07:54 ce qu'on appelle un espace de représentation.
07:56 C'est un espace pluridimensionnel dans lequel on va positionner des utilisateurs et des
08:00 objets.
08:01 Techniquement, je ne demande pas à l'audience de se pencher là-dedans, mais l'idée à
08:05 avoir c'est que dans cet espace, si un utilisateur est proche d'un objet, c'est que l'utilisateur
08:10 aimera cet objet et vice-versa.
08:12 C'est comme ça que marche ce modèle.
08:15 Ce que nous allons faire, nous, c'est donc pas analyser les recommandations, mais analyser
08:20 cet espace-là.
08:21 En phase 3, on prend nos attitudes politiques qui ont été mesurées pour nos utilisateurs
08:26 sur Twitter et ce qu'on va faire, c'est qu'on va comparer ces attitudes politiques
08:30 avec l'espace de représentation de l'algorithme pour se poser la question, est-ce qu'il y
08:35 a des informations politiques dans cet espace de l'algorithme ? Ce qu'on trouve, c'est
08:40 beaucoup de résultats que vous trouverez dans le papier, mais que j'ai résumé en
08:45 une image pour les résultats principales.
08:47 Certaines dimensions du modèle sont fortement corrélées avec les attitudes politiques
08:54 des utilisateurs.
08:55 Et ils sont corrélés de façon assez spécifique.
08:57 C'est-à-dire qu'ici, on peut voir en rouge et en bleu ce que comprend le modèle.
09:04 En bleu, je prends le top des utilisateurs dans une certaine dimension.
09:08 Plus je prends des utilisateurs extrêmes dans cette dimension du modèle, donc c'est
09:12 simplement le modèle qui les voit extrêmes, plus je me rends compte que ces utilisateurs
09:17 sont cantonnés dans un espace politique très spécifique.
09:21 Ici, on a deux dimensions en particulier, une qui est reliée à la gauche anti-élite
09:26 et une qui est reliée à la droite, en général, légèrement anti-élite.
09:31 Ça, c'est des exemples de deux dimensions qui montrent clairement qu'on voit une corrélation
09:37 entre les dimensions de l'algorithme et les attitudes politiques des utilisateurs.
09:43 Et c'est à peu près ça ce qu'on veut montrer dans cette étude, puisque pour faire
09:49 le résumé du tout, cette étude est surtout une proof of concept, en quelque sorte, une
09:53 preuve de concept que oui, même en prenant un algorithme simple de la littérature scientifique
09:59 que j'ai codé moi-même sur des données réelles, donc des données auxquelles les
10:03 algorithmes aujourd'hui ont accès, oui, ces algorithmes-là sont capables d'apprendre
10:08 indirectement les attitudes politiques des utilisateurs et de les utiliser pour produire
10:13 des recommandations.
10:14 Bien sûr, l'algorithme ne sait pas si cette dimension vaut droite ou gauche, mais l'algorithme
10:19 utilise cette dimension indirectement pour produire ses recommandations.
10:23 Donc, ce que nous avons appris ici, c'est que c'est possible d'avoir ce phénomène-là
10:29 et nous avons une idée dans le papier, pour ceux qui sont intéressés, de comment on
10:32 peut mesurer ce phénomène-là et comment on peut ensuite, à large échelle, utiliser
10:37 ce genre de mesure pour pouvoir comprendre à quel point des modèles prennent en compte
10:42 ou pas la politique des utilisateurs.
10:44 Cette méthode, elle a plusieurs implications.
10:47 J'en ai mis deux principales ici qui peuvent intéresser.
10:51 La première, c'est identifier des contournements du DSA.
10:54 C'est facile pour une plateforme de dire "mais je ne prends pas en compte les opinions
10:58 politiques des gens, comme il n'y a pas de données politiques dans mes données
11:01 d'entraînement".
11:02 Ce que je viens de montrer ici, c'est qu'il n'y a pas besoin d'avoir des données
11:06 politiques à l'entrée du modèle pour que le modèle s'entraîne sur des traces
11:10 politiques présentes dans les données.
11:12 Donc, ça, c'est la première grande implication.
11:15 Et la deuxième grande implication, c'est que comme maintenant nous sommes capables
11:19 de relier les attitudes politiques, non pas aux recommandations, mais à la façon même
11:25 qu'a le modèle de fonctionner.
11:26 À partir de maintenant, on peut décider de faire de l'ingénierie à l'intérieur
11:32 du modèle et de demander aux plateformes, pas juste de contrôler ce qu'ils recommandent
11:37 aux gens, mais de contrôler la façon dont ils le recommandent.
11:41 Et c'est pour ça que j'ai besoin de l'aide de l'Arkom.
11:46 Pour ça, et bien entendu pour obtenir les modèles et les données qu'utilisent les
11:50 plateformes.
11:51 On en a parlé en début de conférence.
11:52 Donc, j'attends bien entendu l'aide de l'Arkom et de tout le monde pour pouvoir
11:57 poursuivre ces recherches le mieux possible.
11:59 Voilà, c'est tout pour moi.
12:00 Je pense que le temps est fini.
12:02 Vous avez ici un lien vers mon site sur lequel je plaiderai le papier le plus vite possible.
12:08 Voilà, merci.
12:10 [Applaudissements]

Recommandations