Journée d'études 2022 de l'Arcom : Shaden Shabayek

Arcom

18/01/2024

Catégorie

🤖

Technologie

Transcription

Afficher la transcription complète de la vidéo

00:00 Et on va démarrer tout d'abord par une keynote de Chaden Chabayek qui est

00:04 membre du Media Lab de Sciences Po et qui est aussi chercheuse postdoctorale

00:10 à Paris-Saclay et qui va nous présenter un papier sur la gouvernance

00:16 des plateformes numériques.

00:18 Un papier qui a été co-écrit avec Emmanuel Vincent et Héloïse Thérault

00:23 et dans lequel l'interroge notamment l'action de Facebook, de Twitter,

00:27 de YouTube en matière de modération des contenus relatifs à la désinformation

00:32 et au discours de haine.

00:33 Donc on vous attend avec beaucoup d'excitation si je puis dire.

00:39 C'est à vous.

00:40 Merci.

00:41 - Merci beaucoup.

00:43 (Propos inaudibles)

00:44 - Est-ce que ça...

00:45 (Propos inaudibles)

00:46 (...)

00:57 (...)

01:05 (...)

01:13 (...)

01:29 - Tu peux appeler sur OK avec le compteur.

01:31 (Propos inaudibles)

01:32 (...)

01:40 - Bonjour tout le monde.

01:41 Merci beaucoup pour cette présentation.

01:44 Merci pour l'organisation de...

01:46 Ah oui, j'ai pas l'habitude du micro.

01:51 OK, très bien.

01:52 Bonjour tout le monde.

01:53 Merci beaucoup pour l'organisation de cette journée.

01:57 On a eu une matinée très, très enrichissante.

02:00 Et donc pour cet après-midi, je vais vous parler d'un travail commun

02:04 avec Emmanuel Vincent et Héloïse Thérault dans le cadre de mon postdoc

02:09 au Media Lab de Sciences Po.

02:11 Je suis à mon deuxième postdoc à l'Université Paris-Saclay.

02:14 Et donc pour commencer, je vais...

02:17 Donc là, aujourd'hui, je vais vous présenter plutôt une synthèse

02:20 de plusieurs travaux, plutôt qu'un seul papier ou qu'un seul résultat.

02:25 Donc ça va être plus un cadrage, en fait.

02:28 Vous n'allez pas voir beaucoup d'équations économétriques

02:31 ou beaucoup de graphiques.

02:32 Ça va être vraiment une synthèse sur des travaux qui portent

02:36 sur la modération des contenus par les grandes plateformes numériques

02:40 et en particulier les contenus trompeurs ou erronés.

02:43 Donc en fait, on s'est posé...

02:46 Pour commencer ces travaux de recherche, on s'est posé comme question

02:49 et on pensait à l'époque que c'était plutôt simple.

02:52 Mais en fait, il s'est avéré que ce n'est pas du tout simple.

02:55 Donc on s'est posé comme question pour commencer,

02:57 quelles étaient les politiques de modération des contenus,

03:00 encore liées donc aux contenus erronés ou trompeurs,

03:03 qui sont mis en place par les grandes plateformes numériques.

03:06 Comment les étudier ? Donc quelles données ? Quelles méthodes ?

03:10 Comment les auditer ? Donc comment vérifier que les plateformes

03:15 font bien ce qu'elles annoncent sur leur site ?

03:21 Comment mesurer leur efficacité, mais aussi leur pertinence ?

03:25 Donc est-ce que ça marche ? Ça ne marche pas ?

03:28 Est-ce que ça change le comportement de certains agents, des comptes,

03:31 des pages ? Et surtout, l'objectif final, c'est de se poser des questions

03:38 sur la pertinence en fait de certaines de ces politiques.

03:42 Non, dans l'autre sens. OK. Et en fait, vous pouvez trouver

03:45 cette synthèse, vous pouvez trouver ce rapport sur le site DeFacto,

03:49 qui est l'antenne française de l'Observatoire européen des médias numériques.

03:55 Donc j'ai appris la traduction française, donc Edmo.

03:59 Sur ce site, vous pouvez trouver des éditos qui décrivent plusieurs

04:05 articles de recherche, mais également des fact-check, ou aussi des boîtes à outils.

04:11 Je vous invite à y jeter un coup d'œil. Et puis d'autres rapports

04:17 très synthétiques comme celui-ci. OK. Donc pour commencer avec quelques

04:21 éléments de contexte, comme vous savez, avec la massification d'usage

04:25 des réseaux sociaux numériques, il y a une inquiétude de plus en plus

04:29 croissante sur les désordres informationnels. Et comme vous savez,

04:34 pour les grandes plateformes numériques, elles ont bénéficié depuis la fin

04:38 des années 90, début années 2000, en Europe comme aux États-Unis,

04:43 d'un cadre réglementaire qui leur a permis de se développer,

04:50 mais qui ne les tenait pas responsables des contenus qui sont publiés

04:54 par les internautes. Ce sont des hébergeurs et le sont encore aujourd'hui.

04:58 Mais bien sûr, avec cette inquiétude croissante, il y a eu beaucoup de pression

05:02 sur ces grandes plateformes de faire quelque chose.

05:05 Faire quelque chose, en fait, elles ont mis en place de plus en plus,

05:12 en particulier depuis 2016, de plus en plus de politiques internes

05:16 pour répondre à ces inquiétudes, en particulier des politiques internes

05:22 pour réduire ces désordres, réduire les désordres liés aux contenus

05:27 trompeurs. Mais bien sûr, la tâche n'est pas facile.

05:32 C'est plutôt une tâche algorithmique difficile.

05:34 Comment est-ce qu'on distingue une opinion d'un contenu satirique

05:38 qui dit que ce contenu est erroné ou non ? La tâche n'est pas facile.

05:42 Et très souvent, les plateformes ont fait recours un peu à un mélange

05:47 d'algorithmes, mais aussi d'êtres humains, des modérateurs,

05:51 des organismes de fact-checker, font appel dans la plupart des cas

05:56 à des journalistes fact-checker, mais aussi, elles ont cherché,

06:00 ces plateformes, à faciliter le signalement par les internautes,

06:03 par les utilisateurs eux-mêmes ou elles-mêmes.

06:06 Et donc, en fait, on a essayé de comprendre un peu,

06:10 les politiques internes changent très régulièrement.

06:14 Sans réussite, il y en a de plus en plus.

06:16 Et en fait, on a essayé de construire un peu trois grandes catégories.

06:21 D'abord, informer. Et ça, c'est la politique que vous avez vue

06:27 le plus souvent, qui consiste à mettre des panneaux informationnels

06:31 pour donner un peu de contexte. Vous l'avez peut-être vue sur YouTube.

06:35 Ou bien, des flags, des petits carrés qui indiquent que ce contenu est faux.

06:42 Cliquez sur ce lien pour voir pourquoi.

06:45 Ainsi de suite, ou sur Twitter. Vous pouvez voir des notices

06:48 qui vous disent s'il y a un post sur le Covid ou la Covid.

06:52 Vous pouvez cliquer pour avoir plus d'informations à partir

06:56 de sources autoritaires, de sources gouvernementales.

06:59 Et ensuite, il y a deux autres grandes familles de politiques

07:03 qui sont très, très difficiles à étudier, parce qu'elles sont difficiles

07:07 à observer, en fait. La deuxième, qui consiste à réduire

07:11 la visibilité d'un contenu spécifique, ou bien même réduire

07:17 la visibilité d'un compte, d'une page ou d'un groupe.

07:20 Et enfin, la troisième, qui est plutôt rare, en fait.

07:25 C'est dans un cas extrême, donc la suppression de contenu

07:28 ou la suspension de compte. Et souvent, on ne peut pas nous-mêmes

07:33 distinguer si ça a été supprimé parce que c'est la plateforme

07:36 ou bien un utilisateur a reçu un message de la part de la plateforme

07:42 qui l'invite à supprimer un contenu.

07:45 Non, l'autre flèche, toujours. Et donc là, vous pouvez voir

07:53 deux exemples, à gauche de Facebook, un exemple de ces panneaux

07:57 informationnels, donc fausses informations. Vous pouvez choisir

08:01 de cliquer pour découvrir pourquoi, ou bien voir la vidéo,

08:04 ou bien à droite, ici, un panneau informationnel qui indique le contexte.

08:08 Et donc, en fait, là, on peut se poser comme question,

08:12 pourquoi vérifier ces politiques internes des grandes plateformes ?

08:15 Eh bien, en fait, il s'agit, comme vous le savez, les réseaux sociaux

08:20 prennent de plus en plus de place et d'importance dans la formation

08:24 de l'opinion publique. Donc, il existe encore beaucoup d'autres médias.

08:27 On ne va pas uniquement lire les informations sur les réseaux sociaux.

08:31 Il y a encore la télé, la radio, la presse. Mais comme on l'a vu ce matin,

08:34 donc en termes de captation d'attention, non, vous êtes dans le public, maintenant.

08:38 Donc, comme on l'a vu ce matin, META arrive en deuxième après les médias

08:46 publics, en termes de captation d'attention. Donc, en fait, cette présence,

08:50 elle est de plus en plus croissante. Il n'y a pas que les réseaux sociaux,

08:53 mais les réseaux sociaux jouent un rôle de plus en plus important.

08:57 Et donc, c'est important de faire cet exercice. Il est nécessaire de le faire

09:01 d'une façon indépendante, d'une façon rigoureuse pour garantir

09:07 la qualité de l'information, surtout lorsqu'il s'agit de questions

09:11 d'intérêt public, mais aussi pour garantir d'autres libertés très, très importantes,

09:15 donc la liberté d'expression, la liberté d'information.

09:18 Donc, comment vérifier ces politiques ? Et ça, c'est la question difficile.

09:23 Comment vérifier ces politiques de façon indépendante ?

09:25 Comment est-ce qu'on peut faire ça de notre point de vue de chercheur ?

09:30 En fait, comment est-ce qu'on fait ça ? Donc, certains d'entre vous le savent,

09:34 déjà, il y a eu beaucoup d'efforts de transparence de la part des plateformes.

09:37 On a accès à quelques données via les API, le centre de transparence,

09:41 ou bien même parfois des partenariats académiques, comme avec Facebook.

09:45 Mais en fait, on s'est rendu compte que certaines données pertinentes

09:49 dont on aurait besoin pour bien mener cet exercice d'une façon rigoureuse,

09:54 pour bien vérifier les trois grandes familles de politiques que je viens de vous montrer,

10:02 et bien, même s'il y avait beaucoup, beaucoup de données,

10:04 certaines données très simples et très pertinentes n'étaient pas disponibles.

10:08 Et du coup, nos travaux montrent qu'il est possible de tirer de premiers constats.

10:16 Donc, dans ce papier, en fait, on regarde la deuxième politique

10:19 qui consiste à réduire la visibilité des contenus.

10:24 Et en fait, dans ce papier, l'idée, c'est de partir, donc ça porte sur Facebook,

10:29 il y a Facebook dans le titre, en fait, de partir d'un ensemble de groupes

10:34 qui ont été identifiés parce qu'ils ont publié un certain nombre de contenus trempeurs.

10:42 Ça a été identifié par des fact-checkers, donc pas nous, ce n'est pas mon travail de faire ça.

10:48 Et après, ce qu'on essaye de voir, c'est de mesurer l'engagement qui est reçu par ces pages, en fait.

10:56 Donc, une fois que ces pages étaient averties d'avoir publié un énoncé trompeur,

11:01 parce que Facebook envoie un avertissement, un strike, envoie un message pour dire à ces pages ou ces groupes,

11:08 vous avez ce contenu-là, il a été fact-checké, c'est faux.

11:13 Les administrateurs savent, en fait.

11:15 Donc, ce qu'on essayait de voir, c'est d'utiliser les engagements,

11:18 donc les likes, les commentaires, pour essayer de voir s'il y a eu un impact, en fait, en termes de visibilité.

11:24 Donc, ça, c'était une première façon indirecte pour étudier la visibilité.

11:30 Mais en fait, comme j'ai dit, on peut tirer quelques constats, mais ces données sont incomplètes.

11:36 Il y a une variable très simple dont on n'a pas accès, c'est le reach ou la couverture,

11:41 donc le nombre de personnes qui ont vu un contenu.

11:45 Il s'agit d'une variable très simple et pourtant très, très importante, en fait, pour bien comprendre ce qui se passe.

11:52 Et du coup, ce qui change, aujourd'hui, comme j'ai dit, c'est plutôt une synthèse.

11:56 Je ne vais pas vous présenter de jolis graphiques.

12:00 Ce qui va changer, en fait, ou ce qui a changé depuis trois semaines maintenant, un peu moins que trois semaines,

12:05 c'est le contexte réglementaire, au moins en Europe.

12:08 Donc, ce contexte réglementaire, il va se modifier profondément.

12:12 Nous avons déjà parlé aujourd'hui du règlement sur les services numériques, dit DSA.

12:18 Je vais en parler très vite.

12:22 Je ne suis pas juriste, mais en fait, là, je le mentionne parce que ça aura un impact sur nos travaux de recherche.

12:28 C'est une bonne parenthèse.

12:31 Et puis, d'autres juristes dans la salle pourront le commenter ou bien compléter ces remarques.

12:36 Donc, il y a le DSA qui vient se rajouter à un autre règlement très important, le RGPD.

12:42 Mais aussi, il y avait déjà depuis 2018 un code de bonne pratique sur la désinformation.

12:48 Les signataires de ce code sont engagés à respecter un certain nombre d'actions.

12:55 Par exemple, démonétiser certains comptes ou certaines pages qui ont partagé des contenus trompeurs.

13:04 L'idée, c'est de les empêcher d'avoir des revenus publicitaires.

13:09 Et puis, même dans ce code, il y a l'idée aussi de laisser plus d'accès aux données aux chercheurs, ainsi de suite.

13:16 Et enfin, l'Agence états-unies, il y a aussi cette idée d'avoir plus de transparence de la part et de responsabilisation.

13:28 Il y a des initiatives aussi transatlantiques. Donc, pour l'instant, c'est, à ma connaissance, c'est encore un projet de loi.

13:34 OK. Donc, revenons au DSA. Donc, il y a plusieurs articles qui vont concerner nos travaux.

13:41 Donc, nous qui travaillons sur l'écosystème informationnel, l'article 40 en particulier, l'accès aux données et contrôle des données.

13:49 Donc, en fait, le DSA va offrir un cadre dès son entrée en vigueur. Il me semble que depuis hier, il y avait déjà quelques articles qui sont entrés en vigueur.

14:02 Donc, j'ai bien révisé avant de venir. Donc, il va nous fournir un cadre juridique qui va permettre aux chercheurs,

14:09 donc des chercheurs agréés, d'accéder à certaines données des plateformes,

14:14 donc de faire une demande avec le coordinateur de chaque membre de l'Union européenne.

14:21 Et là, cette phrase, elle est importante. Donc, à la seule fin de procéder à des recherches contribuant à la détection.

14:28 Ah oui, 13 minutes. Et au recensement de... D'accord. Et à la compréhension des risques systémiques dans l'Union.

14:37 Et j'ai encore deux minutes. Je vais essayer d'aller plus vite. Et donc, en fait, il faut...

14:44 Maintenant qu'on aura un cadre juridique, il faudrait se poser beaucoup de questions.

14:50 Donc, quelles données ? Comment gouverner ce transfert de données ? Quelle coordination entre régulateurs, plateformes,

14:58 chercheurs et autres acteurs de la société civile ? Est-ce qu'il faudrait réfléchir à plusieurs niveaux d'accès ?

15:04 Distinguer, par exemple, les données sensibles ? Ou là, il faudrait une réglementation très, très stricte pour protéger les données sensibles.

15:12 Mais qu'en est-il des données à risque minimal, en fait ? Lorsqu'il n'y a pas de risque, est-ce qu'il ne faudrait pas donner un accès à un ensemble plus large de l'acteur ?

15:20 Et donc, en fait, aujourd'hui, en une minute, il me reste une minute, je voulais vous présenter, en fait...

15:25 Donc là, ce qui est en résultat de nos travaux, c'est aussi une liste de données qui manque.

15:30 Et je voulais vous présenter cette liste. Donc, ça fait un peu liste de course. Peut-être, ça l'est un peu. Mais on va voir.

15:38 Donc, en fait, d'abord, les panneaux informationnels et labels, donc via les API. En fait, cette information, pour l'avoir, on est obligé de scraper cette information.

15:49 On ne peut pas, sur les API, déjà repérer les contenus qui ont fait l'objet d'un processus de labellisation.

15:58 On n'a pas cette information qui est pourtant à risque minimal, il me semble. Par exemple, on ne sait pas non plus s'il s'agit d'un processus algorithmique

16:09 ou bien d'une décision humaine, donc modérateur ou des signalements, ou bien une combinaison des deux.

16:14 Deuxièmement, donc, encore une fois, on ne peut pas identifier le contenu qui a été identifié par la plateforme elle-même comme trompeur.

16:25 Donc, on peut chercher ce type de contenu, si nous-mêmes, on a déjà une base de données avec des fact-check, parce que ça devient une méthodologie commune,

16:35 comme nous sommes chercheurs. Donc, ce n'est pas à nous de dire ce qui est trompeur ou non. Donc, on doit partir d'une base de données.

16:42 Pareil pour ce contenu. Donc, je l'ai dit tout à l'heure, on n'a pas le reach ou la couverture d'un poste. Et c'est encore une fois, une donnée à risque minimal.

16:50 Et là, donc, par contre, donc là, à droite, c'est la colonne avec la base de... donc des bases de données pour voir sous conditions.

16:57 Donc là où il faut faire très attention à respecter le RGTD, à bien bénéficier de ce nouveau cadre réglementaire.

17:05 Donc, avoir accès à ce contenu, en fait. Parfois, quand les contenus disparaissent des plateformes, nous, on ne peut plus les étudier.

17:12 On ne peut plus savoir... on ne peut plus étudier les engagements, ne peut pas savoir qui a été exposé à ces contenus.

17:19 Est-ce que c'était viral ou non ? Voilà. Donc, la colonne de droite, c'est toujours, donc, base de données à pourvoir sous conditions,

17:26 lorsque c'est des données sensibles. Et puis, la première colonne, c'est des champs de données à faible risque.

17:32 Donc, troisièmement, les suspensions des comptes et la suppression des contenus, parce qu'il y a beaucoup de discussions autour de ça.

17:40 Donc, lorsque ça disparaît, ça disparaît. On ne peut plus l'étudier, comme j'ai dit. Je vais essayer d'aller plus vite pour conclure.

17:47 OK. Donc, des données sur les algorithmes de recommandation. Donc, est-ce que les contenus qui ont été identifiés comme erronés

17:57 continuent à être recommandés ou non ? La démonétisation, pareil, on n'a pas d'informations sur ça.

18:04 Et donc, les dernières remarques, en deux secondes, si vous me permettez. Donc, là, c'était un peu une identification préliminaire

18:13 de données nécessaires pour organiser la mise en pratique du DSA. Maintenant, il y a plusieurs questions.

18:18 Donc, ça peut ouvrir le débat. Vous pouvez... Peut-être que vous avez un avis, une opinion, ou bien vous pouvez en poser d'autres.

18:25 Donc, quelle participation citoyenne ? Comment faire remonter auprès des plateformes l'ensemble des métadonnées potentiellement utiles

18:33 si nous avons collectivement une liste initiale ? Est-ce que ça ne peut pas simplifier la mise en place de ce nouveau cadre réglementaire ?

18:41 Quel cadre pour formuler les demandes d'accès aux données ? Donc, est-ce qu'on aura un processus administratif plutôt simplifié ?

18:48 Ou bien ça risque d'être... Donc, c'est des questions qu'on devrait se poser. Donc, je les laisse là. Et puis, j'arrête de parler.

18:56 Et je vous prends le micro. – Merci beaucoup. C'est très intéressant. Vous avez vraiment posé les données de la question

19:07 qu'on va analyser tout au long de cette première partie de l'après-midi.

Recommandations

15:16

À suivre

Journée d'études 2022 de l'Arcom : Rémi Deveaux

Arcom