Journée d'études 2023 de l'Arcom : Tim Faverjon

Arcom

21/11/2023

Catégorie

🤖

Technologie

Transcription

Afficher la transcription complète de la vidéo

00:00 On va passer à la dernière présentation de ce panel, qui sera faite par Tim Favergeon,

00:13 qui va présenter un article qui est co-écrit par Pedro Ramaciotti-Morales, que vous avez

00:21 pu entendre ce matin.

00:22 Tim, vous êtes doctorant en sciences sociales computationnelles au Media Lab de Sciences

00:28 Po et au Learning Planet Institute.

00:30 L'article que vous présentez s'intitule "Comment les algorithmes de recommandation

00:35 détectent et exploitent les préférences politiques des utilisateurs".

00:38 C'est exact, effectivement.

00:41 Bonjour à tous.

00:43 C'est après-manger, c'est la dernière présentation, donc je vais essayer d'être

00:48 incisif, bref, pour qu'on puisse comprendre un maximum.

00:51 Je suis effectivement Tim Favergeon, je suis effectivement doctorant au Media Lab de Sciences

00:56 Po et on va parler d'algorithmes de recommandation et de préférences politiques des utilisateurs.

01:01 C'est en continuation parfaite avec ce qu'on a dit, puisqu'on a parlé ici de biais,

01:05 on a parlé de polarisation et on a parlé également de bulles de filtre.

01:09 Il y a une grosse question qui se pose en littérature actuellement, c'est est-ce que

01:13 les algorithmes de recommandation, qui ont une part énorme dans le fonctionnement des

01:18 réseaux sociaux, pourraient avoir une responsabilité dans ce genre de mécanisme ?

01:22 Une façon de répondre à cette question, c'est de voir comment ces algorithmes de

01:26 recommandation, dans la façon dont ils fonctionnent, sont reliés réellement avec les opinions

01:30 politiques des utilisateurs et c'est ce que je vais faire juste ici.

01:34 Donc, comme beaucoup de gens dans cette présentation, je vais commencer par parler du DSA, parce

01:41 qu'on est là pour ça finalement.

01:43 Donc, le DSA parle des algorithmes de recommandation et j'ai enlevé les textes juridiques, mais

01:52 pour résumer ce qui est dit, on peut voir deux tendances principales.

01:56 La première, c'est qu'il demande aux plateformes d'expliquer comment les algorithmes de recommandation

02:01 fonctionnent.

02:02 Juste ici, le petit laser ne marche pas.

02:03 Non, dommage.

02:04 J'aime bien, mais bon.

02:06 Du coup, la première, c'est expliquer comment les algorithmes de recommandation fonctionnent

02:10 et de dire quels paramètres sont importants dans les recommandations que se faitent, pourquoi

02:13 une recommandation est faite plutôt qu'une autre.

02:15 Et la deuxième, c'est de ne pas discriminer les utilisateurs en fonction de certaines

02:21 catégories de données personnelles dont font partie la politique.

02:24 Donc, tout ça, c'est effectivement quelque chose sur lequel on est tous d'accord.

02:28 Mais la question qu'on se pose, c'est comment faire déjà à comprendre qu'est-ce qui

02:32 influence un algorithme de recommandation dans son fonctionnement et en particulier,

02:37 comment s'assurer que parmi les paramètres importants dans les algorithmes de recommandation,

02:41 il n'y ait pas également les préférences politiques des utilisateurs, ce qui donc

02:46 conduirait systématiquement à ce qu'on a vu avant comme de la polarisation ou des

02:50 bulles de filtre.

02:51 Donc, le travail que j'ai envie de présenter ici, c'est un travail qui va répondre à

02:56 cette question-là, c'est-à-dire comment on va réussir à comprendre s'il y a des

03:00 opinions politiques dans le fonctionnement des algorithmes.

03:02 Pour résoudre ce genre de questions, donc pour comprendre comment les algorithmes fonctionnent,

03:08 il y a deux principales méthodes qui sont utilisées en littérature.

03:12 La première méthode qui a été la première à être développée, c'est la méthode

03:15 de l'audit.

03:16 Donc, si on prend notre algorithme de recommandation avec ses données entrées, l'algorithme

03:21 et son fonctionnement et les recommandations en sortie, dans l'audit, c'est très simple,

03:26 on prend uniquement les recommandations en sortie et on essaye de comprendre si elles

03:29 correspondent effectivement à ce qu'il y avait d'attendu.

03:32 Donc, c'est ce que font beaucoup de personnes dans les études.

03:35 Par exemple, on va voir l'algorithme de YouTube et on va se dire est-ce qu'il va

03:38 recommander des contenus plutôt de droite, plutôt de gauche et tout ça.

03:41 Il y a une deuxième méthode qui se développe petit à petit avec ce qu'on appelle l'explicabilité

03:47 algorithmique et qui se développe également avec les algorithmes de recommandation, c'est

03:52 l'explication des recommandations.

03:54 Dans cette méthode-là, l'idée ce n'est pas de voir uniquement les recommandations

03:59 mais d'ouvrir ce qu'on appelle la boîte noire des recommandations pour voir le modèle

04:05 à l'intérieur et pour comprendre à l'intérieur du modèle comment le modèle fonctionne,

04:10 quels sont les paramètres réellement influents et en particulier est-ce que dans ces paramètres

04:14 on peut déceler ce qui pourrait être la cause de polarisation ou la cause de radicalisation

04:19 ou de plein d'autres phénomènes.

04:20 Et c'est cette voie que nous, nous choisissons pour plusieurs raisons.

04:26 Déjà parce que c'est celle qui est demandée par l'EDSA en quelque sorte et également

04:31 parce que c'est une voie qui est problème agnostique si on peut.

04:34 En quelque sorte, une fois qu'on a expliqué un modèle, il n'y a pas besoin de refaire

04:37 une analyse pour à chaque fois s'adapter et comprendre si le modèle va correspondre

04:43 à d'autres critères qu'on veut rajouter.

04:44 Une fois qu'on a expliqué le modèle, on peut alors mettre le modèle face à tous

04:48 les critères auxquels on veut le soumettre.

04:50 Donc l'idée ici c'est de construire une méthode d'explication pour les algorithmes

04:56 de recommandation et en particulier d'utiliser pour expliquer ces algorithmes les opinions

05:02 politiques des utilisateurs.

05:03 Donc la raison pour laquelle ce genre de travaux n'a jamais été fait, par exemple

05:08 pour la France, c'est parce que avoir les opinions politiques des utilisateurs, avoir

05:11 les attitudes politiques, c'est compliqué.

05:13 Et c'est également la raison, pour ceux qui suivent le mieux, pour lesquelles j'ai

05:17 collaboré avec Pedro ici, car j'ai besoin de mesurer les attitudes politiques des utilisateurs.

05:26 Donc pour ceux qui ont suivi la méthode qui a été expliquée un peu mieux ce matin,

05:30 je passerai très vite là-dessus, on se base sur comment la structure du réseau est faite

05:35 sur Twitter pour pouvoir positionner les utilisateurs dans un espace d'opinion politique.

05:41 Et ensuite on utilise des dimensions d'experts politiques pour pouvoir scaler ces dimensions-là

05:48 et créer un espace qu'on appelle d'attitude politique.

05:51 Ici pour notre étude, on va garder deux attitudes politiques importantes pour le cadre politique

05:57 français, qui sont l'attitude droite-gauche, bien sûr, qu'on connaît tous, et une autre

06:04 dimension qui est tout aussi explicative de l'espace politique français, qui est l'attitude

06:09 envers les élites et les institutions.

06:12 Donc à quel point les personnes font confiance ou pas aux institutions et aux élites.

06:17 Donc ici on voit un exemple, la distribution des utilisateurs sur cet espace politique.

06:23 Donc on voit que la plupart des utilisateurs se situent légèrement à droite et plutôt

06:26 au centre d'un point de vue élite-anti-élite.

06:28 Donc une fois qu'on a ces attitudes politiques, arrive le travail de l'étude.

06:35 Notre idée, c'est de construire des explications politiques et notre méthode pour l'instant,

06:40 ça va être simplement de faire une preuve de concept, de prendre un algorithme connu,

06:43 de prendre des données réelles, d'entraîner cet algorithme et de regarder à l'intérieur

06:48 de cet algorithme, est-ce qu'on peut trouver des grandeurs politiques, est-ce qu'on peut

06:51 expliquer ces grandeurs politiques, pour pouvoir voir si la méthode peut, disons,

06:57 à une durée de vie et peut être appliquée à d'autres algorithmes plus complexes.

07:00 Le résultat, c'est un petit spoiler mais vous le verrez dans quelques slides, c'est

07:04 que oui, il y a des informations politiques contenues dans le modèle.

07:07 Donc tout ça, qu'est-ce que ça veut dire ? Donc ça c'est la slide qu'il faut suivre,

07:13 si vous avez arrêté de regarder, c'est maintenant qu'il faut vous tourner pour comprendre

07:16 ce qui s'est passé dans cette recherche.

07:17 On a quatre étapes principales dans notre étude.

07:22 Premièrement, on collecte des données, on prend des utilisateurs sur Twitter et les

07:27 URL qu'ils ont partagées sur Twitter également.

07:30 À partir de ça, on peut coder un algorithme de recommandation.

07:33 Un algorithme de recommandation, c'est quoi ? C'est simplement un algorithme qui va prédire

07:37 quelles seraient les nouveaux URL que les personnes aimeraient.

07:39 Ah tiens, vous avez déjà partagé ceci et ceci et ceci, alors vous adorerez partager

07:43 cette autre URL.

07:45 Une fois qu'on a créé un algorithme de recommandation, la plupart des algorithmes

07:49 de recommandation fonctionnent en deux étapes, dont une première étape où on va construire

07:54 ce qu'on appelle un espace de représentation.

07:56 C'est un espace pluridimensionnel dans lequel on va positionner des utilisateurs et des

08:00 objets.

08:01 Techniquement, je ne demande pas à l'audience de se pencher là-dedans, mais l'idée à

08:05 avoir c'est que dans cet espace, si un utilisateur est proche d'un objet, c'est que l'utilisateur

08:10 aimera cet objet et vice-versa.

08:12 C'est comme ça que marche ce modèle.

08:15 Ce que nous allons faire, nous, c'est donc pas analyser les recommandations, mais analyser

08:20 cet espace-là.

08:21 En phase 3, on prend nos attitudes politiques qui ont été mesurées pour nos utilisateurs

08:26 sur Twitter et ce qu'on va faire, c'est qu'on va comparer ces attitudes politiques

08:30 avec l'espace de représentation de l'algorithme pour se poser la question, est-ce qu'il y

08:35 a des informations politiques dans cet espace de l'algorithme ? Ce qu'on trouve, c'est

08:40 beaucoup de résultats que vous trouverez dans le papier, mais que j'ai résumé en

08:45 une image pour les résultats principales.

08:47 Certaines dimensions du modèle sont fortement corrélées avec les attitudes politiques

08:54 des utilisateurs.

08:55 Et ils sont corrélés de façon assez spécifique.

08:57 C'est-à-dire qu'ici, on peut voir en rouge et en bleu ce que comprend le modèle.

09:04 En bleu, je prends le top des utilisateurs dans une certaine dimension.

09:08 Plus je prends des utilisateurs extrêmes dans cette dimension du modèle, donc c'est

09:12 simplement le modèle qui les voit extrêmes, plus je me rends compte que ces utilisateurs

09:17 sont cantonnés dans un espace politique très spécifique.

09:21 Ici, on a deux dimensions en particulier, une qui est reliée à la gauche anti-élite

09:26 et une qui est reliée à la droite, en général, légèrement anti-élite.

09:31 Ça, c'est des exemples de deux dimensions qui montrent clairement qu'on voit une corrélation

09:37 entre les dimensions de l'algorithme et les attitudes politiques des utilisateurs.

09:43 Et c'est à peu près ça ce qu'on veut montrer dans cette étude, puisque pour faire

09:49 le résumé du tout, cette étude est surtout une proof of concept, en quelque sorte, une

09:53 preuve de concept que oui, même en prenant un algorithme simple de la littérature scientifique

09:59 que j'ai codé moi-même sur des données réelles, donc des données auxquelles les

10:03 algorithmes aujourd'hui ont accès, oui, ces algorithmes-là sont capables d'apprendre

10:08 indirectement les attitudes politiques des utilisateurs et de les utiliser pour produire

10:13 des recommandations.

10:14 Bien sûr, l'algorithme ne sait pas si cette dimension vaut droite ou gauche, mais l'algorithme

10:19 utilise cette dimension indirectement pour produire ses recommandations.

10:23 Donc, ce que nous avons appris ici, c'est que c'est possible d'avoir ce phénomène-là

10:29 et nous avons une idée dans le papier, pour ceux qui sont intéressés, de comment on

10:32 peut mesurer ce phénomène-là et comment on peut ensuite, à large échelle, utiliser

10:37 ce genre de mesure pour pouvoir comprendre à quel point des modèles prennent en compte

10:42 ou pas la politique des utilisateurs.

10:44 Cette méthode, elle a plusieurs implications.

10:47 J'en ai mis deux principales ici qui peuvent intéresser.

10:51 La première, c'est identifier des contournements du DSA.

10:54 C'est facile pour une plateforme de dire "mais je ne prends pas en compte les opinions

10:58 politiques des gens, comme il n'y a pas de données politiques dans mes données

11:01 d'entraînement".

11:02 Ce que je viens de montrer ici, c'est qu'il n'y a pas besoin d'avoir des données

11:06 politiques à l'entrée du modèle pour que le modèle s'entraîne sur des traces

11:10 politiques présentes dans les données.

11:12 Donc, ça, c'est la première grande implication.

11:15 Et la deuxième grande implication, c'est que comme maintenant nous sommes capables

11:19 de relier les attitudes politiques, non pas aux recommandations, mais à la façon même

11:25 qu'a le modèle de fonctionner.

11:26 À partir de maintenant, on peut décider de faire de l'ingénierie à l'intérieur

11:32 du modèle et de demander aux plateformes, pas juste de contrôler ce qu'ils recommandent

11:37 aux gens, mais de contrôler la façon dont ils le recommandent.

11:41 Et c'est pour ça que j'ai besoin de l'aide de l'Arkom.

11:46 Pour ça, et bien entendu pour obtenir les modèles et les données qu'utilisent les

11:50 plateformes.

11:51 On en a parlé en début de conférence.

11:52 Donc, j'attends bien entendu l'aide de l'Arkom et de tout le monde pour pouvoir

11:57 poursuivre ces recherches le mieux possible.

11:59 Voilà, c'est tout pour moi.

12:00 Je pense que le temps est fini.

12:02 Vous avez ici un lien vers mon site sur lequel je plaiderai le papier le plus vite possible.

12:08 Voilà, merci.

12:10 [Applaudissements]

Recommandations

16:45

À suivre

Journée d'études 2023 de l'Arcom : Firat Yaman

Arcom