• il y a 10 mois
Transcription
00:00 Et on va démarrer tout d'abord par une keynote de Chaden Chabayek qui est
00:04 membre du Media Lab de Sciences Po et qui est aussi chercheuse postdoctorale
00:10 à Paris-Saclay et qui va nous présenter un papier sur la gouvernance
00:16 des plateformes numériques.
00:18 Un papier qui a été co-écrit avec Emmanuel Vincent et Héloïse Thérault
00:23 et dans lequel l'interroge notamment l'action de Facebook, de Twitter,
00:27 de YouTube en matière de modération des contenus relatifs à la désinformation
00:32 et au discours de haine.
00:33 Donc on vous attend avec beaucoup d'excitation si je puis dire.
00:39 C'est à vous.
00:40 Merci.
00:41 - Merci beaucoup.
00:43 (Propos inaudibles)
00:44 - Est-ce que ça...
00:45 (Propos inaudibles)
00:46 (...)
00:57 (...)
01:05 (...)
01:13 (...)
01:29 - Tu peux appeler sur OK avec le compteur.
01:31 (Propos inaudibles)
01:32 (...)
01:40 - Bonjour tout le monde.
01:41 Merci beaucoup pour cette présentation.
01:44 Merci pour l'organisation de...
01:46 Ah oui, j'ai pas l'habitude du micro.
01:51 OK, très bien.
01:52 Bonjour tout le monde.
01:53 Merci beaucoup pour l'organisation de cette journée.
01:57 On a eu une matinée très, très enrichissante.
02:00 Et donc pour cet après-midi, je vais vous parler d'un travail commun
02:04 avec Emmanuel Vincent et Héloïse Thérault dans le cadre de mon postdoc
02:09 au Media Lab de Sciences Po.
02:11 Je suis à mon deuxième postdoc à l'Université Paris-Saclay.
02:14 Et donc pour commencer, je vais...
02:17 Donc là, aujourd'hui, je vais vous présenter plutôt une synthèse
02:20 de plusieurs travaux, plutôt qu'un seul papier ou qu'un seul résultat.
02:25 Donc ça va être plus un cadrage, en fait.
02:28 Vous n'allez pas voir beaucoup d'équations économétriques
02:31 ou beaucoup de graphiques.
02:32 Ça va être vraiment une synthèse sur des travaux qui portent
02:36 sur la modération des contenus par les grandes plateformes numériques
02:40 et en particulier les contenus trompeurs ou erronés.
02:43 Donc en fait, on s'est posé...
02:46 Pour commencer ces travaux de recherche, on s'est posé comme question
02:49 et on pensait à l'époque que c'était plutôt simple.
02:52 Mais en fait, il s'est avéré que ce n'est pas du tout simple.
02:55 Donc on s'est posé comme question pour commencer,
02:57 quelles étaient les politiques de modération des contenus,
03:00 encore liées donc aux contenus erronés ou trompeurs,
03:03 qui sont mis en place par les grandes plateformes numériques.
03:06 Comment les étudier ? Donc quelles données ? Quelles méthodes ?
03:10 Comment les auditer ? Donc comment vérifier que les plateformes
03:15 font bien ce qu'elles annoncent sur leur site ?
03:21 Comment mesurer leur efficacité, mais aussi leur pertinence ?
03:25 Donc est-ce que ça marche ? Ça ne marche pas ?
03:28 Est-ce que ça change le comportement de certains agents, des comptes,
03:31 des pages ? Et surtout, l'objectif final, c'est de se poser des questions
03:38 sur la pertinence en fait de certaines de ces politiques.
03:42 Non, dans l'autre sens. OK. Et en fait, vous pouvez trouver
03:45 cette synthèse, vous pouvez trouver ce rapport sur le site DeFacto,
03:49 qui est l'antenne française de l'Observatoire européen des médias numériques.
03:55 Donc j'ai appris la traduction française, donc Edmo.
03:59 Sur ce site, vous pouvez trouver des éditos qui décrivent plusieurs
04:05 articles de recherche, mais également des fact-check, ou aussi des boîtes à outils.
04:11 Je vous invite à y jeter un coup d'œil. Et puis d'autres rapports
04:17 très synthétiques comme celui-ci. OK. Donc pour commencer avec quelques
04:21 éléments de contexte, comme vous savez, avec la massification d'usage
04:25 des réseaux sociaux numériques, il y a une inquiétude de plus en plus
04:29 croissante sur les désordres informationnels. Et comme vous savez,
04:34 pour les grandes plateformes numériques, elles ont bénéficié depuis la fin
04:38 des années 90, début années 2000, en Europe comme aux États-Unis,
04:43 d'un cadre réglementaire qui leur a permis de se développer,
04:50 mais qui ne les tenait pas responsables des contenus qui sont publiés
04:54 par les internautes. Ce sont des hébergeurs et le sont encore aujourd'hui.
04:58 Mais bien sûr, avec cette inquiétude croissante, il y a eu beaucoup de pression
05:02 sur ces grandes plateformes de faire quelque chose.
05:05 Faire quelque chose, en fait, elles ont mis en place de plus en plus,
05:12 en particulier depuis 2016, de plus en plus de politiques internes
05:16 pour répondre à ces inquiétudes, en particulier des politiques internes
05:22 pour réduire ces désordres, réduire les désordres liés aux contenus
05:27 trompeurs. Mais bien sûr, la tâche n'est pas facile.
05:32 C'est plutôt une tâche algorithmique difficile.
05:34 Comment est-ce qu'on distingue une opinion d'un contenu satirique
05:38 qui dit que ce contenu est erroné ou non ? La tâche n'est pas facile.
05:42 Et très souvent, les plateformes ont fait recours un peu à un mélange
05:47 d'algorithmes, mais aussi d'êtres humains, des modérateurs,
05:51 des organismes de fact-checker, font appel dans la plupart des cas
05:56 à des journalistes fact-checker, mais aussi, elles ont cherché,
06:00 ces plateformes, à faciliter le signalement par les internautes,
06:03 par les utilisateurs eux-mêmes ou elles-mêmes.
06:06 Et donc, en fait, on a essayé de comprendre un peu,
06:10 les politiques internes changent très régulièrement.
06:14 Sans réussite, il y en a de plus en plus.
06:16 Et en fait, on a essayé de construire un peu trois grandes catégories.
06:21 D'abord, informer. Et ça, c'est la politique que vous avez vue
06:27 le plus souvent, qui consiste à mettre des panneaux informationnels
06:31 pour donner un peu de contexte. Vous l'avez peut-être vue sur YouTube.
06:35 Ou bien, des flags, des petits carrés qui indiquent que ce contenu est faux.
06:42 Cliquez sur ce lien pour voir pourquoi.
06:45 Ainsi de suite, ou sur Twitter. Vous pouvez voir des notices
06:48 qui vous disent s'il y a un post sur le Covid ou la Covid.
06:52 Vous pouvez cliquer pour avoir plus d'informations à partir
06:56 de sources autoritaires, de sources gouvernementales.
06:59 Et ensuite, il y a deux autres grandes familles de politiques
07:03 qui sont très, très difficiles à étudier, parce qu'elles sont difficiles
07:07 à observer, en fait. La deuxième, qui consiste à réduire
07:11 la visibilité d'un contenu spécifique, ou bien même réduire
07:17 la visibilité d'un compte, d'une page ou d'un groupe.
07:20 Et enfin, la troisième, qui est plutôt rare, en fait.
07:25 C'est dans un cas extrême, donc la suppression de contenu
07:28 ou la suspension de compte. Et souvent, on ne peut pas nous-mêmes
07:33 distinguer si ça a été supprimé parce que c'est la plateforme
07:36 ou bien un utilisateur a reçu un message de la part de la plateforme
07:42 qui l'invite à supprimer un contenu.
07:45 Non, l'autre flèche, toujours. Et donc là, vous pouvez voir
07:53 deux exemples, à gauche de Facebook, un exemple de ces panneaux
07:57 informationnels, donc fausses informations. Vous pouvez choisir
08:01 de cliquer pour découvrir pourquoi, ou bien voir la vidéo,
08:04 ou bien à droite, ici, un panneau informationnel qui indique le contexte.
08:08 Et donc, en fait, là, on peut se poser comme question,
08:12 pourquoi vérifier ces politiques internes des grandes plateformes ?
08:15 Eh bien, en fait, il s'agit, comme vous le savez, les réseaux sociaux
08:20 prennent de plus en plus de place et d'importance dans la formation
08:24 de l'opinion publique. Donc, il existe encore beaucoup d'autres médias.
08:27 On ne va pas uniquement lire les informations sur les réseaux sociaux.
08:31 Il y a encore la télé, la radio, la presse. Mais comme on l'a vu ce matin,
08:34 donc en termes de captation d'attention, non, vous êtes dans le public, maintenant.
08:38 Donc, comme on l'a vu ce matin, META arrive en deuxième après les médias
08:46 publics, en termes de captation d'attention. Donc, en fait, cette présence,
08:50 elle est de plus en plus croissante. Il n'y a pas que les réseaux sociaux,
08:53 mais les réseaux sociaux jouent un rôle de plus en plus important.
08:57 Et donc, c'est important de faire cet exercice. Il est nécessaire de le faire
09:01 d'une façon indépendante, d'une façon rigoureuse pour garantir
09:07 la qualité de l'information, surtout lorsqu'il s'agit de questions
09:11 d'intérêt public, mais aussi pour garantir d'autres libertés très, très importantes,
09:15 donc la liberté d'expression, la liberté d'information.
09:18 Donc, comment vérifier ces politiques ? Et ça, c'est la question difficile.
09:23 Comment vérifier ces politiques de façon indépendante ?
09:25 Comment est-ce qu'on peut faire ça de notre point de vue de chercheur ?
09:30 En fait, comment est-ce qu'on fait ça ? Donc, certains d'entre vous le savent,
09:34 déjà, il y a eu beaucoup d'efforts de transparence de la part des plateformes.
09:37 On a accès à quelques données via les API, le centre de transparence,
09:41 ou bien même parfois des partenariats académiques, comme avec Facebook.
09:45 Mais en fait, on s'est rendu compte que certaines données pertinentes
09:49 dont on aurait besoin pour bien mener cet exercice d'une façon rigoureuse,
09:54 pour bien vérifier les trois grandes familles de politiques que je viens de vous montrer,
10:02 et bien, même s'il y avait beaucoup, beaucoup de données,
10:04 certaines données très simples et très pertinentes n'étaient pas disponibles.
10:08 Et du coup, nos travaux montrent qu'il est possible de tirer de premiers constats.
10:16 Donc, dans ce papier, en fait, on regarde la deuxième politique
10:19 qui consiste à réduire la visibilité des contenus.
10:24 Et en fait, dans ce papier, l'idée, c'est de partir, donc ça porte sur Facebook,
10:29 il y a Facebook dans le titre, en fait, de partir d'un ensemble de groupes
10:34 qui ont été identifiés parce qu'ils ont publié un certain nombre de contenus trempeurs.
10:42 Ça a été identifié par des fact-checkers, donc pas nous, ce n'est pas mon travail de faire ça.
10:48 Et après, ce qu'on essaye de voir, c'est de mesurer l'engagement qui est reçu par ces pages, en fait.
10:56 Donc, une fois que ces pages étaient averties d'avoir publié un énoncé trompeur,
11:01 parce que Facebook envoie un avertissement, un strike, envoie un message pour dire à ces pages ou ces groupes,
11:08 vous avez ce contenu-là, il a été fact-checké, c'est faux.
11:13 Les administrateurs savent, en fait.
11:15 Donc, ce qu'on essayait de voir, c'est d'utiliser les engagements,
11:18 donc les likes, les commentaires, pour essayer de voir s'il y a eu un impact, en fait, en termes de visibilité.
11:24 Donc, ça, c'était une première façon indirecte pour étudier la visibilité.
11:30 Mais en fait, comme j'ai dit, on peut tirer quelques constats, mais ces données sont incomplètes.
11:36 Il y a une variable très simple dont on n'a pas accès, c'est le reach ou la couverture,
11:41 donc le nombre de personnes qui ont vu un contenu.
11:45 Il s'agit d'une variable très simple et pourtant très, très importante, en fait, pour bien comprendre ce qui se passe.
11:52 Et du coup, ce qui change, aujourd'hui, comme j'ai dit, c'est plutôt une synthèse.
11:56 Je ne vais pas vous présenter de jolis graphiques.
12:00 Ce qui va changer, en fait, ou ce qui a changé depuis trois semaines maintenant, un peu moins que trois semaines,
12:05 c'est le contexte réglementaire, au moins en Europe.
12:08 Donc, ce contexte réglementaire, il va se modifier profondément.
12:12 Nous avons déjà parlé aujourd'hui du règlement sur les services numériques, dit DSA.
12:18 Je vais en parler très vite.
12:22 Je ne suis pas juriste, mais en fait, là, je le mentionne parce que ça aura un impact sur nos travaux de recherche.
12:28 C'est une bonne parenthèse.
12:31 Et puis, d'autres juristes dans la salle pourront le commenter ou bien compléter ces remarques.
12:36 Donc, il y a le DSA qui vient se rajouter à un autre règlement très important, le RGPD.
12:42 Mais aussi, il y avait déjà depuis 2018 un code de bonne pratique sur la désinformation.
12:48 Les signataires de ce code sont engagés à respecter un certain nombre d'actions.
12:55 Par exemple, démonétiser certains comptes ou certaines pages qui ont partagé des contenus trompeurs.
13:04 L'idée, c'est de les empêcher d'avoir des revenus publicitaires.
13:09 Et puis, même dans ce code, il y a l'idée aussi de laisser plus d'accès aux données aux chercheurs, ainsi de suite.
13:16 Et enfin, l'Agence états-unies, il y a aussi cette idée d'avoir plus de transparence de la part et de responsabilisation.
13:28 Il y a des initiatives aussi transatlantiques. Donc, pour l'instant, c'est, à ma connaissance, c'est encore un projet de loi.
13:34 OK. Donc, revenons au DSA. Donc, il y a plusieurs articles qui vont concerner nos travaux.
13:41 Donc, nous qui travaillons sur l'écosystème informationnel, l'article 40 en particulier, l'accès aux données et contrôle des données.
13:49 Donc, en fait, le DSA va offrir un cadre dès son entrée en vigueur. Il me semble que depuis hier, il y avait déjà quelques articles qui sont entrés en vigueur.
14:02 Donc, j'ai bien révisé avant de venir. Donc, il va nous fournir un cadre juridique qui va permettre aux chercheurs,
14:09 donc des chercheurs agréés, d'accéder à certaines données des plateformes,
14:14 donc de faire une demande avec le coordinateur de chaque membre de l'Union européenne.
14:21 Et là, cette phrase, elle est importante. Donc, à la seule fin de procéder à des recherches contribuant à la détection.
14:28 Ah oui, 13 minutes. Et au recensement de... D'accord. Et à la compréhension des risques systémiques dans l'Union.
14:37 Et j'ai encore deux minutes. Je vais essayer d'aller plus vite. Et donc, en fait, il faut...
14:44 Maintenant qu'on aura un cadre juridique, il faudrait se poser beaucoup de questions.
14:50 Donc, quelles données ? Comment gouverner ce transfert de données ? Quelle coordination entre régulateurs, plateformes,
14:58 chercheurs et autres acteurs de la société civile ? Est-ce qu'il faudrait réfléchir à plusieurs niveaux d'accès ?
15:04 Distinguer, par exemple, les données sensibles ? Ou là, il faudrait une réglementation très, très stricte pour protéger les données sensibles.
15:12 Mais qu'en est-il des données à risque minimal, en fait ? Lorsqu'il n'y a pas de risque, est-ce qu'il ne faudrait pas donner un accès à un ensemble plus large de l'acteur ?
15:20 Et donc, en fait, aujourd'hui, en une minute, il me reste une minute, je voulais vous présenter, en fait...
15:25 Donc là, ce qui est en résultat de nos travaux, c'est aussi une liste de données qui manque.
15:30 Et je voulais vous présenter cette liste. Donc, ça fait un peu liste de course. Peut-être, ça l'est un peu. Mais on va voir.
15:38 Donc, en fait, d'abord, les panneaux informationnels et labels, donc via les API. En fait, cette information, pour l'avoir, on est obligé de scraper cette information.
15:49 On ne peut pas, sur les API, déjà repérer les contenus qui ont fait l'objet d'un processus de labellisation.
15:58 On n'a pas cette information qui est pourtant à risque minimal, il me semble. Par exemple, on ne sait pas non plus s'il s'agit d'un processus algorithmique
16:09 ou bien d'une décision humaine, donc modérateur ou des signalements, ou bien une combinaison des deux.
16:14 Deuxièmement, donc, encore une fois, on ne peut pas identifier le contenu qui a été identifié par la plateforme elle-même comme trompeur.
16:25 Donc, on peut chercher ce type de contenu, si nous-mêmes, on a déjà une base de données avec des fact-check, parce que ça devient une méthodologie commune,
16:35 comme nous sommes chercheurs. Donc, ce n'est pas à nous de dire ce qui est trompeur ou non. Donc, on doit partir d'une base de données.
16:42 Pareil pour ce contenu. Donc, je l'ai dit tout à l'heure, on n'a pas le reach ou la couverture d'un poste. Et c'est encore une fois, une donnée à risque minimal.
16:50 Et là, donc, par contre, donc là, à droite, c'est la colonne avec la base de... donc des bases de données pour voir sous conditions.
16:57 Donc là où il faut faire très attention à respecter le RGTD, à bien bénéficier de ce nouveau cadre réglementaire.
17:05 Donc, avoir accès à ce contenu, en fait. Parfois, quand les contenus disparaissent des plateformes, nous, on ne peut plus les étudier.
17:12 On ne peut plus savoir... on ne peut plus étudier les engagements, ne peut pas savoir qui a été exposé à ces contenus.
17:19 Est-ce que c'était viral ou non ? Voilà. Donc, la colonne de droite, c'est toujours, donc, base de données à pourvoir sous conditions,
17:26 lorsque c'est des données sensibles. Et puis, la première colonne, c'est des champs de données à faible risque.
17:32 Donc, troisièmement, les suspensions des comptes et la suppression des contenus, parce qu'il y a beaucoup de discussions autour de ça.
17:40 Donc, lorsque ça disparaît, ça disparaît. On ne peut plus l'étudier, comme j'ai dit. Je vais essayer d'aller plus vite pour conclure.
17:47 OK. Donc, des données sur les algorithmes de recommandation. Donc, est-ce que les contenus qui ont été identifiés comme erronés
17:57 continuent à être recommandés ou non ? La démonétisation, pareil, on n'a pas d'informations sur ça.
18:04 Et donc, les dernières remarques, en deux secondes, si vous me permettez. Donc, là, c'était un peu une identification préliminaire
18:13 de données nécessaires pour organiser la mise en pratique du DSA. Maintenant, il y a plusieurs questions.
18:18 Donc, ça peut ouvrir le débat. Vous pouvez... Peut-être que vous avez un avis, une opinion, ou bien vous pouvez en poser d'autres.
18:25 Donc, quelle participation citoyenne ? Comment faire remonter auprès des plateformes l'ensemble des métadonnées potentiellement utiles
18:33 si nous avons collectivement une liste initiale ? Est-ce que ça ne peut pas simplifier la mise en place de ce nouveau cadre réglementaire ?
18:41 Quel cadre pour formuler les demandes d'accès aux données ? Donc, est-ce qu'on aura un processus administratif plutôt simplifié ?
18:48 Ou bien ça risque d'être... Donc, c'est des questions qu'on devrait se poser. Donc, je les laisse là. Et puis, j'arrête de parler.
18:56 Et je vous prends le micro. – Merci beaucoup. C'est très intéressant. Vous avez vraiment posé les données de la question
19:07 qu'on va analyser tout au long de cette première partie de l'après-midi.

Recommandations