Journée d'études 2024 de l'Arcom : Thomas Renault

Arcom

l’année dernière

https://www.arcom.fr/actualites/troisieme-journee-detudes-de-larcom-presentation-des-travaux-des-chercheurs-sur-les-medias-audiovisuels-et-numeriques

Catégorie

🗞

News

Transcription

Afficher la transcription complète de la vidéo

00:00Une question qu'on peut se poser également, c'est comment les usagers pourraient agir

00:09finalement sur la modération de contenu, sous quelles modalités, avec quels impacts.

00:14C'est justement l'objet d'un travail que Thomas Renaud, qui est maître de conférence

00:19à l'université Panthéon-Sorbonne, a mené avec d'autres équipes.

00:25Et donc Thomas va illustrer ce questionnement autour d'un cas d'usage, qui est celui

00:31des community notes sur le réseau X.

00:34Donc Thomas, à vous.

00:40Merci beaucoup, donc je vais vous présenter un travail de recherche qui a été commencé

00:45il y a un an et demi environ, qu'on a déjà un petit peu présenté à l'ARCOM et à la

00:53Commission européenne.

00:54Donc c'est un travail de recherche, on est sept au total sur ce papier, des co-auteurs

00:59d'HEC Paris en droit, et des co-auteurs en Allemagne ou en Luxembourg, plutôt côté

01:04computing science.

01:05Alors, je vais vous parler des community notes, si on peut passer les slides s'il vous plaît.

01:12Ah, pardon, c'est moi, c'est vrai.

01:16J'utilise des misinformation ici, il y a plein de questions sur la définition.

01:23On est bien d'accord.

01:25Sur la première partie, ça pose un problème, un problème majeur.

01:29Ça a déjà été mentionné plusieurs fois, donc je remercie les intervenants précédents,

01:33je ne m'attarde pas là-dessus, sur les moyens de lutter contre la désinformation.

01:38Donc, il y a le fact-checking, on a des études expérimentales qui montrent que

01:44globalement, ça marche, au sens où si vous donnez une information à un individu, vous

01:50mettez un groupe de contrôle, un groupe traité, sur le groupe traité, vous exposez

01:55un fact-checking de manière volontaire, de manière facultative.

02:01Est-ce que c'est un label ?

02:02Est-ce que c'est quelque chose de long ?

02:03Donc, on a beaucoup de papiers dans la littérature qui montrent que globalement,

02:07ça marche assez bien.

02:08Je pourrais montrer des estimations.

02:10On a trois principaux problèmes avec le fact-checking qui sont liés au volume

02:16d'informations qu'on peut traiter, simplement parce qu'on a un nombre limité

02:21de fact-checkers et forcément, on ne peut pas traiter toutes les informations.

02:24On a parfois un problème de visibilité, donc les fact-checkers professionnels ont

02:31accès à une audience qui est relativement restreinte.

02:36Et le troisième, qui est très important et qui a été bien documenté, surtout aux

02:40Etats-Unis, on a des problèmes de confiance.

02:43Si vous prenez un sondage aux Etats-Unis, vous avez à peu près la moitié de la

02:48population américaine qui estime que les fact-checkers ont des biais.

02:53Et bien sûr, on a une grande différence entre démocrate et républicain.

02:56Vous avez à peu près 70% des républicains qui pensent qu'il y a des biais.

03:01Bien sûr, pour que les utilisateurs ensuite, qui sont exposés à de la

03:06modération, changent leur comportement, il faut qu'il y ait de la confiance,

03:09il faut qu'il y ait assez de volume, il faut que ça soit assez visible.

03:14Une question qui se pose un peu dans la littérature, c'est, avec ces limites

03:18des fact-checkers, est-ce qu'on ne pourrait pas faire une sorte de fact-checking

03:23par la foule ? Proposer un peu à n'importe qui d'ajouter des informations

03:29contextuelles et ces informations contextuelles pourraient être visibles.

03:34En 2021, si vous êtes sur X ou Twitter, vous avez peut-être vu ce qui

03:39s'appelait à l'époque Birdwatch, qui s'appelle maintenant Community Notes.

03:44Donc Community Notes, c'est un système qui a été mis en place par Twitter.

03:48C'était avant l'arrivée d'Elon Musk, ça a continué et Elon Musk d'ailleurs

03:52le défend de manière assez importante, peut-être d'ailleurs pour une

03:57justification de supprimer la modération humaine.

04:00Mais ce système permet à des utilisateurs de proposer des notes

04:05contextuelles sous des tweets qu'ils jugent être faux ou misleading.

04:11Des notes sont proposées et ensuite d'autres utilisateurs, avec un certain

04:15processus d'agrément de ces utilisateurs, peuvent voter pour dire est-ce qu'ils

04:20pensent que réellement la note est importante parce que le tweet est faux

04:24et donc il faut ajouter une information sous le tweet ou est-ce que soit la

04:28note n'est pas assez précise, pas assez sourcée, soit simplement le tweet

04:31ne contient pas de fausses informations.

04:34Twitter a un algorithme, donc X a un algorithme et en fonction de pas mal

04:39de caractéristiques, ce n'est pas juste on compte les votes positifs,

04:41négatifs, on fait un simple ratio et on a un seuil, on va prendre en compte

04:45la polarisation des votes.

04:47Est-ce que les gens qui votent de la même manière étaient d'accord avant ?

04:50Comment est-ce que ces gens-là ont voté avant ?

04:52Il y a tout un algorithme qui est public, qui permet ensuite de déterminer un

04:55score pour chaque note.

04:57Si une note atteint un certain seuil, cette note devient publiée sur Twitter.

05:03Deux exemples de notes.

05:04Vous voyez, vous avez des tweets, un tweet de Jackson Hinkle qui parle

05:08d'une déclaration d'Emmanuel Macron, un tweet d'Elon Musk.

05:13Vous avez ce qu'on connaît bien, un tweet, parfois des médias, un nombre

05:16de retweets, une date, etc.

05:18Et en l'occurrence, sous ces deux tweets, des notes contextuelles avaient

05:22été proposées par d'autres utilisateurs.

05:25Ces notes ont reçu assez de notes positives de la part d'utilisateurs

05:30ayant une certaine polarisation, des notes passées distinctes pour être

05:34affichées sur X.

05:37Donc, c'est le bloc que vous voyez ici avec le readers added context.

05:41Donc, en général, une note, c'est plutôt court.

05:45Ça contient en général un lien vers une source externe qui permet à

05:50d'autres utilisateurs de juger est-ce que cette note est pertinente ou non.

05:54Donc, dans le cas ici, c'était une déclaration d'Emmanuel Macron sur la

05:58guerre en Israël avec une partie qui était mise en avant par Jackson Hinkle

06:03et un contexte en dessous.

06:05Soit ce n'est pas ce qui a été dit, soit ça a été dit dans un certain

06:08contexte.

06:08Donc, on n'est pas nécessairement sur de l'information illégale.

06:12Il peut y avoir justement des choses sorties de leur contexte, des

06:16précisions importantes à ajouter.

06:20Et donc, c'est à ça que servent les community notes.

06:25Notre recherche se place aussi, alors plutôt de manière fortuite, dans

06:29le cadre du formal proceedings de la Commission européenne contre X,

06:34qui date de décembre 2023.

06:36Je vous dis ça parce qu'en fait, on avait commencé à travailler sur les

06:38community notes avant cette date-là.

06:41Et dans le legal proceeding, il y a donc une phrase spécifique de la

06:45Commission européenne justement sur l'efficacité de la modération de

06:49X et des community notes.

06:52Pourquoi ?

06:52Parce qu'en fait, avant notre papier, a priori, il n'y avait pas d'étude

06:56causale qui montre est-ce que ça marche, est-ce que ça ne marche pas,

06:59de combien ça réduit, dans quelles circonstances.

07:02Et donc, c'est ce qu'on a voulu faire dans cette étude.

07:07Donc, ce qu'on fait, on va quantifier, donc moi je suis économiste, on va

07:10quantifier vraiment l'effet causal et ça va être très important dans le

07:15design, dans la manière d'aller essayer de montrer cet effet.

07:18On va avoir un cadre qui est vraiment un cadre causal qu'on recherche quand

07:21on fait ce genre d'études et on va analyser l'effet causal de l'apparition

07:26d'une note contextuelle sous un message.

07:29On va caractériser l'effet causal via différentes dimensions.

07:33Premièrement, comment ça joue sur le nombre, la diffusion du tweet après

07:37le traitement ?

07:37Donc, une fois que la note est apparue sous un tweet, comment les personnes,

07:42les autres utilisateurs réagissent ?

07:44Est-ce qu'ils retweetent de la même manière ?

07:46Moins, plus, si moins, de combien ?

07:49On va s'intéresser aussi, c'est un point qui est hyper important, je

07:51reviendrai dessus à quelques reprises, sur la diffusion totale.

07:55Pourquoi ?

07:55Parce qu'en fonction du timing d'arrivée de la note, bien sûr, si

07:58la note arrive trois jours après, on ne va jouer que sur une toute

08:01petite partie de la diffusion.

08:02Donc, on va aussi regarder l'impact sur la diffusion totale de ces tweets.

08:08Une possibilité aussi, c'est qu'un utilisateur qui reçoit une

08:11committee notes par lui-même va supprimer son tweet, ce qui est très

08:15bien pour contrecarrer la diffusion de fausses informations, ce qui est

08:18plus dur à quantifier parce qu'en général, on a très peu d'informations

08:21sur les tweets supprimés et on va proposer, idem, une identification

08:25ici pour avoir une mesure de l'effet causal.

08:28Et on va regarder l'hétérogénéité ensuite, est-ce que ça a plus d'effet

08:32sur les comptes vérifiés, les comptes pas vérifiés, les républicains,

08:34les démocrates, les jeunes comptes, les comptes qui ont beaucoup de

08:36followers et de l'autre côté, sur les reposters, ceux qui retweetent,

08:40est-ce que les républicains, les démocrates sont plus affectés, etc.

08:44Un point qui est hyper important dans notre identification, c'est que

08:48l'information contextuelle, les committee notes ne sont pas utilisées

08:51par X pour changer de manière algorithmique la visibilité des tweets

08:55ni pour la modération de contenu.

08:58C'est affiché sur leur site, on a eu des discussions directement avec

09:01Jay Baxter, le lead de committee notes, c'est le cas, alors c'est

09:07déclaré, on a une preuve que c'est vrai aussi sur les suspensions.

09:11Et donc, l'effet qu'on observe, la réduction du nombre de retweets,

09:15ça va vraiment être lié à des changements des utilisateurs qui vont

09:19réagir différemment en étant exposés à de l'information.

09:23Je vais passer un peu rapidement sur la revue de littérature pour essayer

09:28de rentrer vraiment en détail dans ce qu'on fait.

09:31On va se rapprocher, la seule mesure un peu causale, c'est X, en interne,

09:36qui en 2022 avait fait un A-B testing, donc avant le lancement de

09:40Birdwatch, ils avaient regardé eux-mêmes en interne, ils avaient

09:43diffusé les notes à certains utilisateurs et pas à d'autres,

09:45et ils regardaient comment ça faisait varier les retweets des gens

09:49qui étaient exposés.

09:50Ils trouvaient une baisse de 25 à 34%, ce qui est relativement

09:53important, alors ça veut aussi dire que de deux tiers à trois quarts

09:57des gens retweetent quand même quand il y a un message contextuel,

10:00mais c'est un effet qui, par rapport aux effets des autres types

10:04d'intervention, warning labels et autres, reste relativement important.

10:08Les données qu'on utilise, donc Birdwatch, ça a été lancé sous le

10:13nom de Birdwatch, qui est devenu Community Notes, en 2021, il y a eu

10:17une phase pilote aux États-Unis jusqu'en 2022, et ça a été étendu

10:21au monde entier en décembre 2022.

10:24Il se trouve que X publie en open source l'ensemble des Community

10:28Notes proposés, l'ensemble des ratings proposés et le statut de

10:34changement des notes.

10:36Par exemple, on peut savoir ce tweet-là, il y a une note proposée

10:39à 10h12, cette note a reçu un vote ici, ici, ici et là, et à 14h18,

10:46la note a atteint cette vote pour être publiée sous X.

10:49L'algorithme est détaillé, on a trois types de notes, on va avoir

10:54les notes qui sont helpful, ça veut dire qu'il y a une information

10:57contextuelle publiée sous le tweet, et deux autres types de notes

11:00qui sont les notes qui n'ont pas reçu assez de votes positifs pour

11:04être affichées.

11:05Là, on se retrouve vraiment dans une identification type médecine,

11:08un groupe de traitement, on reçoit un médicament, le médicament,

11:11c'est une information contextuelle, un groupe traité qui va être un

11:15groupe similaire mais qui n'a pas eu d'informations contextuelles.

11:21On a parlé des problèmes d'accès à l'API de X, on a eu la chance

11:25d'avoir un financement de la fondation HEC pour acheter les données.

11:28On a fait des demandes de DSA qui ont toutes été refusées parce

11:31qu'on n'était pas sur le risque systémique en Europe.

11:33On a eu 10 000 euros, on a acheté les données et principalement,

11:37ce qu'on a, pour chaque tweet, on a le timestamp, quand est-ce

11:41que le tweet a été créé, par qui, le texte du tweet, combien de fois

11:46il a été retweeté au total.

11:48Ce qui rend vraiment l'identification unique, c'est qu'on a extrait

11:52minute par minute, pour tous les tweets qui ont reçu une

11:55committee notes affichée ou non, le processus de diffusion pendant

11:5936 heures après la publication d'un tweet.

12:01C'est ça qui est disponible par l'API Pro, qui nous a permis de faire

12:03cette étude.

12:05Quelques chiffres, notre base de données, c'est 237 000 tweets,

12:1060 000 utilisateurs, retweetés 431 millions de fois.

12:15On prend tout Community Notes en anglais et on fait l'analyse sur

12:17toute la base entre octobre 2022 et juin 2021.

12:22Quelques points importants pour comprendre nos résultats,

12:25le processus de diffusion, en dehors même de Community Notes,

12:28sur Twitter est très rapide.

12:29Sur nos 220 000 tweets, un tweet atteint à peu près sa moitié

12:34de vie, la moitié de son nombre de retweets total, après seulement

12:376 heures.

12:38Donc là, on voit bien, pour être efficace, il faut être hyper rapide.

12:42La plupart des notes ne sont pas publiées parce qu'il n'y a pas

12:44de consensus ou parce que peut-être que la note n'est pas de qualité,

12:47souvent parce qu'il n'y a pas de consensus.

12:49Le délai moyen entre un tweet et une note qui vient afficher

12:54est de 18 heures.

12:55On voit un peu le problème entre 1 et 3, on voit qu'on va jouer

12:58que sur un petit bout et 14% des tweets ont été supprimés ou

13:02suspendus, peut-être d'ailleurs supprimés à cause de la modération,

13:05ce qu'on va essayer de montrer.

13:07Techniquement, on fait beaucoup de choses pour l'identification

13:10des sujets, de quoi ça parle, est-ce que ça parle de politique ?

13:13Est-ce que ça parle d'économie ?

13:15Comment est-ce qu'on détermine le sentiment du tweet ?

13:17Donc, on a beaucoup de variables sur chaque tweet qu'on a pu construire.

13:21Et ensuite, on va faire ce qu'on appelle un Propensity Score Matching.

13:23On va prendre un tweet qui a reçu une note contextuelle et on va

13:26trouver un tweet de notre groupe de contrôle qui partage des

13:29caractéristiques proches, même type de sujet, même auteur avec

13:32un même nombre de followers qui va être dans notre groupe de contrôle

13:35et on va comparer la diffusion des deux.

13:39Pour les suppressions, on n'a pas d'informations, mais on utilise

13:42ce qu'on appelle une régression en discontinuité.

13:44On sait qu'après 0.4, le tweet a un risque d'avoir une note

13:48contextuelle affichée, en dessous, non, et on n'a pas d'autres

13:51informations. Pour les tweets supprimés, on peut savoir si leur

13:54score, via la base de données Community Notes, est en dessous

13:58ou au-dessus des 0.4.

14:01Pas mal de trucs méthodologiques.

14:03On est dans un diff-in-diff avec beaucoup de robustesse.

14:06J'accélère juste pour vous montrer les résultats qui sont les

14:10points, pour moi, les plus importants.

14:12Quand on regarde l'effet du traitement, c'est ce que vous voyez

14:17en dessous. On voit que sur le nombre de retweets, lorsqu'une

14:21information contextuelle est affichée sous un tweet, ça réduit

14:25de 62% la probabilité qu'un tweet soit retweeté.

14:28C'est énorme.

14:30C'est supérieur au fact-checking et on le trouve dans plein de

14:34types de configurations.

14:35C'est un effet très fort.

14:37Les gens qui sont exposés à Community Notes le croient et changent

14:40de manière drastique leur comportement.

14:43Si on regarde ce qu'on voit dans le graphique, ici, donc

14:48month-from-rollout, l'idée, c'est qu'au début, on est au tout début

14:50de l'échantillon et à la fin, on est en juin 2024.

14:53Hyper intéressant, l'efficacité augmente.

14:55Donc, quand on met en place ce genre de système, il peut y avoir

14:58du temps pour que les utilisateurs se l'approprient, croient en la

15:01véracité des informations proposées par ce système.

15:04Et notre estimation au tout début, 25, c'est à peu près ce qu'avaient

15:06Twitter en A-B testing chez eux.

15:08Mais en fait, maintenant, on est plutôt autour de plus de 60% ici.

15:15L'effet total, je vous le résumerai après, c'est l'impact sur les

15:18suppressions. Au-dessus de 0,40, il y a une note publiée.

15:21En dessous, il n'y a pas de note publiée.

15:23On est en discontinuité.

15:24Ça double à peu près la probabilité qu'un tweet soit supprimé.

15:29Donc, les trois grandes informations à retenir, ça réduit post-traitement

15:33de manière très significative, le nombre de retweets, moins 60%.

15:37Ça ne réduit que de 15% le nombre total de retweets.

15:41Pourquoi ? Parce que c'est trop lent.

15:43Et donc, on va jouer sur la queue de distribution.

15:45Ça ne veut pas dire que c'est mauvais, ça veut juste dire que c'est trop lent.

15:48Et ça multiplie par deux les suppressions.

15:51On a pris un petit sample pour essayer de comprendre pourquoi.

15:54On a regardé les reposters.

15:55Sur ces reposters, on a pris, est-ce qu'ils étaient vérifiés ?

15:58Est-ce qu'ils avaient des interactions passées ?

16:00Ou est-ce qu'ils étaient républicains et démocrates ?

16:02Et un dernier résultat que je veux un peu souligner, c'est celui au milieu.

16:07Ça joue de la même manière sur les républicains et les démocrates,

16:11ce qui est très rare pour des systèmes de modération.

16:14Peut-être que c'est Community Notes, peut-être que c'est Community Notes

16:17soutenu de manière très forte par Elon Musk et donc qui renforce la

16:21crédibilité auprès d'un public républicain.

16:23Difficile de séparer l'effet du système de l'effet de la crédibilité

16:27dans un certain milieu d'Elon Musk.

16:30Mais c'est ce qu'on trouve ici.

16:31Et pour résumer, il y a des promesses.

16:36Donc c'est un effet marginal important post-traitement de manière

16:39causale sur les retweets.

16:41Ça augmente très fortement les suppressions et il y a une confiance

16:44de la part des deux parties.

16:45Donc très bien, deux principales limites, c'est trop lent et c'est

16:49sur trop peu de tweets.

16:51Voilà, ce qui ne veut pas dire que le système est mauvais.

16:53Peut-être qu'il va falloir le passer à l'échelle.

16:55Il y a YouTube qui a introduit un projet pilote de Community Notes.

16:59Mais ce système de Community Notes, donc de labellisation par la

17:04foule, semble très prometteur par rapport à ce qu'on a trouvé ici.

17:07Merci beaucoup, désolé pour avoir dépassé un petit peu.

Recommandations

16:40

À suivre

Journée d'études 2024 de l'Arcom : Laurence Calandri

Arcom