https://www.arcom.fr/actualites/troisieme-journee-detudes-de-larcom-presentation-des-travaux-des-chercheurs-sur-les-medias-audiovisuels-et-numeriques
Catégorie
🗞
NewsTranscription
00:00On va terminer sur le dernier panel de la journée, donc on a vu pas mal d'éléments autour de la question de l'accès aux données et de l'article 40.
00:13Mais il y a d'autres outils dont les chercheurs peuvent se saisir dans le cadre du RSN et on va parler de l'un d'entre eux, donc la Transparency Database.
00:21Et pour cela, on invite Clément Lollidec et Romain Badoire.
00:26Clément, vous êtes postdoctorant dans un projet de l'ANR qui s'appelle Digisoft, qui s'intéresse à la gouvernance et à la circulation des normes dans le domaine du numérique.
00:34Vous avez précédemment fait une thèse sur le travailleur des données et sur l'organisation du travail dans l'intelligence artificielle, donc le travailleur des données à Madagascar, je vais préciser.
00:42Et Romain Badoire, vous êtes maître de conférences en sciences de l'information et de la communication à Paris Panthéon-Assas.
00:50Vous êtes membre du CARISME, le centre d'analyse et de recherche interdisciplinaire sur les médias, si je ne me trompe pas dans l'acronyme.
00:56Et vous avez publié deux livres, dont le plus récent s'intitule Les nouvelles lois du web, modération et censure, et paru en 2020 dans la collection La République des idées au Seuil.
01:03La parole est à vous.
01:06Bonjour à toutes et tous.
01:11Donc on est ravis tous les deux de venir échanger avec vous aujourd'hui sur ces questions justement d'accès aux données pour les chercheurs,
01:19autour justement de la base de données qui a été mise en place dans le cadre du Digital Services Act.
01:27Donc ce dont on va vous parler, c'est vraiment une étude exploratoire.
01:30C'est un travail en cours qui a été réalisé dans le cadre de l'ANR DigiSurf, qui est dirigé par Benjamin Loveluc, qui est dans la salle.
01:37Et donc c'est un travail qui a été aussi réalisé avec Tiffany Vier de Télécom Paris, qui doit aussi être dans la salle, même si je ne la vois pas.
01:45Elle est là-bas. Tout à fait. Et donc Clément, Benjamin et moi sommes rattachés à l'université Paris Panthéon-Assas.
01:52Alors juste quelques éléments de cadrage et puis je donnerai la parole à Clément qui va vous présenter un peu le travail en cours.
02:00Comme vous le savez, dans le cadre de l'application du règlement sur les services numériques, les plateformes sont tenues à de nouvelles exigences de transparence.
02:10Elles doivent publier tous les six mois ou tous les ans des rapports de transparence suivant leur taille.
02:16Elles sont tenues à une transparence de leur registre publicitaire. Elles doivent expliciter leur système de recommandation à leurs usagers.
02:24Et parmi les différentes mesures qui sont mises en place, est aussi prévu dans l'article 17 le fait que les plateformes doivent communiquer sur chaque décision de modération qu'elles prennent.
02:38Ces décisions étant appelées des reasons of statesmen, des motifs qui sont compilés dans une base de données publique que vous voyez à l'écran.
02:48Alors comme vous pouvez l'imaginer, si on compile dans une base de données chaque décision de modération réalisée par les grandes plateformes contrôlées par la Commission européenne,
02:59ça fait une base de données énorme. J'ai vérifié hier, la base de données comprenait plus de 9,5 milliards de décisions.
03:08Qu'est-ce qu'on trouve dans cette base de données pour chacune de ces décisions prises ?
03:12On va trouver par exemple quel type de contenu a été modéré, à quelle catégorie il appartenait.
03:21Est-ce qu'on était face à de la violence, à des contenus pornographiques ou autres ?
03:24Est-ce que le contenu a été retiré parce qu'il était illégal ou incompatible avec les règles de publication de la plateforme ?
03:33Est-ce que la décision a été prise de manière automatique ou non ?
03:37Quelle décision a été prise ? Est-ce que le contenu a été supprimé ou est-ce que la visibilité du contenu en question a été réduite ?
03:46Bref, cette base de données a été mise en ligne l'année dernière et déjà elle a fait l'objet de différentes études en Europe
03:57par des chercheurs et des chercheuses qui s'intéressent justement au comportement de modération des plateformes
04:02et qui cherchent un petit peu à les identifier, à en faire une typologie.
04:07Et puis des travaux qui aussi ont mis en lumière les limites qu'il y a à automatiser la transparence à travers cette base de données
04:18notamment parce que cette base de données présente un certain nombre d'incohérences et Clément reviendra dessus.
04:25Et la grande question qu'on s'est posée dans le cadre du projet NRDigisoft était de savoir quel type de transparence permettait cette base de données
04:32et quelle conception de la transparence particulière elle l'incarnait. Et je laisse Clément prendre la foule.
04:38Merci Romain et surtout je fais un merci spécial à Michel qui a vraiment beaucoup travaillé pour l'organisation du panel.
04:46Et je poursuis. Alors une première difficulté qu'on a pu avoir et je pense que ça rejoint ce que Romain vient d'évoquer c'est la masse de données disponibles.
04:56Donc on a eu tout un travail notamment avec Tiffen pour rendre les fichiers analysables avec des outils d'analyse de données donc R, Python.
05:08Et puis on avait une limite importante qui était la puissance de calcul de nos ordinateurs. On ne pouvait pas traiter autant de données.
05:18Donc pour cette présentation on a commencé par faire des explorations sur des bases de données plus réduites.
05:24On a déjà restreint cette base de données uniquement aux réseaux sociaux. Donc en gardant les données de cette plateforme.
05:34Puis on a analysé deux échantillons de décisions. Un échantillon entre avril et juillet 2024.
05:42Et puis un échantillon qu'on a conçu un petit peu différemment puisque c'est un échantillon stratifié.
05:48Donc on a essayé de garder 5000 décisions par plateforme.
05:54L'intérêt de l'échantillon stratifié c'est qu'il permet de faire ressortir certaines plateformes qui sous-déclarent les décisions de modération.
06:02J'y reviendrai et je vais essayer de ne pas faire de name and shame mais on les connaît très bien ces plateformes là.
06:09Pour vous donner un exemple c'est LinkedIn qui sous-déclare dans cette base de données les décisions de modération.
06:17Je vais en venir maintenant aux résultats. Désolé si certains graphes seront difficiles à lire mais c'était compliqué d'anticiper l'organisation de la salle le jour J.
06:29On va commencer par un premier point qu'on a essayé de traiter dans cette exploration.
06:36C'est dans quelle mesure cette base de données permet-elle de faire ressortir des spécificités des plateformes en matière de pratiques de modération.
06:44Cela nous semblait être un intérêt de la manière dont on a conçu cette base et peut-être cela nous semblait être intéressant de tester cette idée de la transparence
06:54qui est d'essayer de faire ressortir des spécificités de plateforme.
07:00Je vais revenir sur deux points par rapport à ces graphes.
07:04Un premier point qui concerne l'automatisation des décisions de modération.
07:11Là on peut vraiment voir émerger des pratiques très différentes selon les plateformes avec notamment des cas qui ont été largement commentés dans la littérature
07:20mais sur lesquels je vais revenir.
07:22Avec notamment le cas de TikTok qui déclare automatiser 90% de ses décisions de modération.
07:29VSX qui n'automatise rien du tout en matière de décision de modération.
07:36Alors rassurez-vous X fait quand même une partie du travail mais ce qui est plus inquiétant c'est que X déclare aussi très peu de décisions de modération.
07:45En fait X se concentre uniquement sur les décisions manifestement illégales, sur les contenus qui sont manifestement illégaux.
07:52Premier point qui permet de faire ressortir des spécificités des plateformes.
07:58Ça nous semblait du coup montrer que cette base pouvait avoir son intérêt, pouvait mériter d'être creusée.
08:05Néanmoins quand on analyse d'autres variables de cette base de données on se rend compte qu'il y a des catégories un petit peu fourdoues.
08:13Alors je pense notamment à la catégorie de la décision de modération.
08:20Les décisions de modération sont classées par catégories, donc violence, violence envers les animaux, sexualité.
08:28Une des catégories qui émerge assez largement c'est la catégorie contenu qui sort du scope des termes de la plateforme.
08:39Or cette catégorie nous apprend finalement assez peu de choses sur la décision de modération.
08:45On sait juste que la plateforme a décidé de le retirer parce qu'elle ne veut pas voir apparaître des contenus relevant de cette catégorie.
08:57On a le même phénomène sur le type de contenu.
09:02On a une modalité dans cette variable qui est la modalité autre et qui ressort assez largement sur le graphique.
09:10On voit par exemple YouTube, c'est quasiment 100% des contenus qui sont catégorisés comme étant des contenus autres.
09:18Donc ni de la vidéo, ni du texte, ni du son, des contenus autres.
09:23Et ça typiquement c'est des choses qui sont extrêmement compliquées à analyser et ça fait émerger à mon sens une des limites de cette base de données.
09:35Je précise aussi pour cette question de la catégorie des contenus qu'on a aussi des catégories qui mériteraient peut-être de figurer dans ces graphes-là.
09:49Je pense notamment à LinkedIn qui dans son rapport de transparence déclare énormément de décisions de modération liées à des faux comptes.
09:58Cette catégorie n'existe pas dans ce qu'on a analysé.
10:02Or ça correspond probablement à des enjeux spécifiques à LinkedIn mais qui existent probablement pour d'autres plateformes.
10:08Si on pense notamment aux pratiques d'astroturfing dans des contextes électoraux, on peut imaginer que de faire émerger des décisions liées à des faux comptes ça pourrait être quelque chose d'important.
10:18Je continue avec d'autres méthodes qu'on a utilisées pour tester cette base de données, pour l'éprouver avec nos outils d'analyse.
10:28Dans cette figure ce que vous voyez c'est une méthode par arbre de décision dans laquelle on a essayé de tester un petit peu la cohérence de la base en entraînant un modèle qui peut prédire la plateforme à laquelle appartient une décision de modération.
10:46L'intérêt de ce modèle c'est d'identifier à la fois si on voit émerger des spécificités plateforme par plateforme puisque si le modèle s'avère être performant ça voudrait dire qu'effectivement il y a de réelles différences, de réelles spécificités des plateformes.
11:03Par ailleurs ce modèle permet également de faire émerger les variables de la base qui sont les plus pertinentes pour prédire la plateforme.
11:13En l'occurrence vous voyez que ces variables là ce sont par exemple catégorie, type de contenu et je vois qu'il me reste cinq minutes donc je vais accélérer.
11:22On a utilisé la même méthode mais cette fois pour prédire si les décisions de modération sont automatisées ou non ce qui fait émerger une variable importante sur cette automatisation des décisions qui est le nom de la plateforme.
11:39Ce qui confirme encore une fois qu'on peut faire émerger des spécificités dans les pratiques de modération des plateformes.
11:46Jusque là j'ai eu tendance à plutôt valoriser l'intérêt de cette base de données dans des analyses plutôt macro.
11:55Ça n'empêche qu'on va voir quand même émerger des incohérences quand on analyse la base.
12:01Quelque chose qu'on a essayé de tester aussi dans cette présentation c'est la cohérence entre les différents outils de régulation et notamment entre la base et les rapports de transparence.
12:14Ce que vous voyez sur le tableau c'est en prenant l'exemple de TikTok la différence entre le pourcentage de contenu enlevé dans le rapport de transparence et le pourcentage de contenu enlevé dans la base de données.
12:27De la même manière vous avez le même pourcentage pour les contenus enlevés automatiquement.
12:34Et là on voit qu'il y a un décalage, une incohérence entre les rapports de transparence et la base de données.
12:39Alors ça avait été relevé par d'autres articles notamment je pense à l'article de Tru Rio.
12:44Mais à mon sens ça paraît être une des sources importantes d'incohérence quand on cherche à harmoniser les instruments de régulation.
12:55Il y a d'autres incohérences qu'on va voir apparaître dans la base.
13:00Là ce que vous voyez c'est la distribution des décisions selon le temps qui a été pris pour le temps de modérer ces contenus.
13:09C'est à dire qu'on regarde entre la création du contenu et la modération combien de temps s'est passé.
13:15Alors là il y a un truc intéressant qui s'est passé c'est que vous voyez tout en haut des petits points bleus.
13:20Je ne sais pas si vous arrivez à les voir de loin.
13:23Et ça correspond à des contenus créés dans les années, enfin même pas dans les années, le 1er janvier 2000.
13:29Alors Snap n'existait pas, soyons clairs.
13:33Donc là on est plutôt face à des incohérences techniques.
13:36Le fait que ce soit le 1er janvier 2000 en plus va dans ce sens.
13:40Alors on a vérifié, a priori ce n'est pas un problème qui viendrait de nos analyses.
13:45C'est probablement qu'il y a eu des incohérences dans le remplissage de la base.
13:48Et ça c'est aussi un autre aspect qui nous paraît important d'adresser.
13:53C'est dans quelle mesure aussi on va voir émerger une forme de professionnalisation des plateformes
13:58dans l'utilisation de ces outils de compliance.
14:04Alors je vais passer ça.
14:07Je vais finir là dessus et puis laisser Romain conclure si on a une minute.
14:12On voulait vous laisser avec ce graphe.
14:15On l'a construit en se basant sur des entretiens qu'on a réalisés avec des modérateurs de contenu.
14:22Et en fait on voulait vous le montrer parce qu'on s'est dit cette base,
14:25il faut essayer de la confronter à ce que c'est concrètement la chaîne de modération aujourd'hui.
14:30Comment est-ce qu'on prend des décisions de modération ?
14:32Et est-ce que cette base couvre tous les acteurs impliqués dans ces décisions de modération ?
14:37Alors vous voyez qu'il y a différents groupes d'acteurs.
14:39Je ne vais pas revenir sur ce que font les Etats membres parce que je pense que tout le monde est à peu près au courant.
14:44Mais vous avez d'autres acteurs donc les réseaux sociaux qui ont des policy teams
14:49qui appliquent les préconisations de la Commission européenne ou des Etats membres
14:53qui ensuite font redescendre ces préconisations auprès de sous-traitants
14:56qui eux-mêmes ont des équipes pour valider que les décisions ont bien été prises
15:01mais qui ont aussi des modérateurs qui prennent concrètement les décisions.
15:04Et puis vous avez également l'utilisateur.
15:07Si on regarde cette base de données en fait il manque deux acteurs dans cette base de données.
15:11L'utilisateur, on n'a aucune information sur est-ce qu'il y a eu des appels de la part des utilisateurs
15:18par rapport à des décisions de modération.
15:20Premier point.
15:21Et deuxième point, il n'y a aussi aucune information sur ce qui se passe à cet endroit-là au niveau des sous-traitants.
15:28Comment concrètement la règle a été prise ?
15:32Je vous laisse là-dessus, je vais laisser Romain conclure.
15:35Vu qu'il nous reste une minute.
15:37Très rapidement, ce qui ressort de cette étude mais aussi d'autres études qui ont porté sur cette base,
15:44c'est dans quelle mesure elle ne peut pas constituer aussi une forme d'opportunité,
15:49d'opacité stratégique pour les plateformes.
15:51Alors les questions d'opacité stratégique dans le domaine de la régulation des plateformes,
15:55c'est tout simplement l'idée que lorsqu'on est le régulateur ou un observateur,
15:59tout simplement des actions de modération,
16:01on est dans une relation de dépendance avec les plateformes
16:04puisqu'on est bien obligé de leur faire confiance parce qu'elles détiennent les données,
16:07donc on est obligé de faire avec ce qu'elles nous donnent.
16:10Et est-ce que cette régulation par la transparence ne peut pas être aussi une opportunité pour certains acteurs
16:15de montrer ce qu'ils ont envie de montrer et de garder caché ce qu'ils ont envie de garder caché ?
16:20Est-ce qu'on est face à une telle situation à travers toutes les incohérences qu'on constate
16:26ou est-ce qu'on est plutôt face à des problèmes de catégorisation,
16:30c'est-à-dire que les catégorisations décidées par la commission
16:34ne correspondent pas vraiment aux pratiques des plateformes ?
16:37Est-ce que c'est lié à une vraie volonté stratégique ou plutôt une incohérence ?
16:41Effectivement, il faudrait pousser un petit peu plus les investigations pour le dire.
16:46En tout cas, ce que ça montre, c'est que l'analyse de cette base révèle quand même des incohérences
16:52entre ce que disent les plateformes à l'échelle des décisions
16:56et ce qu'elles disent dans leurs rapports de transparence plus larges
16:59et ça aussi, ça mérite d'être un peu creusé.
17:01Clément, le dernier mot.
17:03Dernier mot très rapide.
17:05Ce qui nous semble important par rapport à cette tentative d'améliorer la transparence
17:12des décisions de modération, ce serait de dire que finalement,
17:15un outil qui permet des analyses quantitatives telles que cette base de données
17:19peut être un bon début.
17:21Mais si on veut rendre réellement transparentes les décisions de modération,
17:25il faudrait déjà avoir accès aux règles de modération.
17:28Et pour le moment, c'est quelque chose qui est très compliqué à capter, à analyser,
17:34y compris quand on essaye de faire des entretiens avec des modérateurs de contenu
17:38qui ont des NDA très compliqués à casser.
17:41Et ça, à mon sens, ce serait un point important pour améliorer justement
17:47cette transparence des décisions.
17:49Merci beaucoup.
17:51Merci.
17:54Merci beaucoup pour toutes les présentations.
17:57On est un petit peu en retard en termes de timeline.
18:00Je ne sais pas si on a le temps pour une ou deux questions.
18:02Donc une ou deux questions.
18:04S'il y a des questions dans la salle, n'hésitez pas.
18:10Ou peut-être des questions en ligne, mais je n'en ai pas l'impression.
18:17Ah, une question.
18:19Je vais vous passer le micro.
18:21La dire comme arrive.
18:28Merci beaucoup.
18:30Ma question concerne la dernière intervention sur les temporalités.
18:34Je trouvais ça extrêmement intéressant ce que vous montriez sur le lien
18:38de la temporalité de la modération avec le type de modération.
18:42Est-ce qu'il est possible, avec cette base, de faire des croisements plus fins
18:47pour voir, par exemple, quel type de contenu est modéré quand ?
18:51Et je pensais aussi à la question électorale qui a été soulevée
18:54par notre première collègue.
18:56Est-ce que les contextes politiques influent sur la rapidité de la modération ?
19:03Merci.
19:05Alors, on n'a clairement pas mené ce type d'analyse.
19:09Néanmoins, c'est vrai que là, ce qu'on a présenté, c'est vraiment une partie.
19:14Donc, en fait, on peut croiser de toute façon cette variable qu'on a créée,
19:18qui n'existe pas de base, mais on peut la croiser avec toutes les autres variables.
19:22Et si je comprends votre question, l'idée, ce serait de restreindre
19:25à une période temporelle affectée par une élection ou quelque chose comme ça, c'est ça ?
19:36Temporalité et une autre variable.
19:38Par exemple, temporalité, type de contenu.
19:42Effectivement, c'est complètement possible.
19:45Alors, dans les analyses qu'on avait commencé à faire sur le sujet,
19:48mais on ne les a pas gardées parce que ça aurait nécessité de passer
19:52un peu plus de temps pour être honnête.
19:54On avait, par exemple, des résultats assez intéressants
19:57quand on croisait cette variable avec la plateforme.
20:00On voyait, par exemple, qu'effectivement, Twitter était extrêmement rapide
20:04dans les décisions de modération.
20:06Et même chose pour TikTok.
20:08En fait, on retrouvait vraiment un peu la même logique qu'on avait
20:13sur le fait que ces deux plateformes sont assez différentes des autres,
20:18à la fois dans leur pratique, automatisation VS, pas automatisation,
20:22mais aussi dans la durée de décision.
20:27Par exemple, je suis allé regarder dans les rapports de transparence de TikTok,
20:31et les rapports de transparence confirmaient qu'effectivement,
20:35Twitter mettait très peu de temps pour prendre ses décisions.
20:39Donc, ce sont des choses qui sont tout à fait envisageables,
20:42et je pense qu'on pourrait tout à fait imaginer, en plus,
20:45de l'adapter à une période temporelle spécifique pour tester peut-être
20:50ses impacts sur les élections, les impacts des élections
20:54sur les décisions de modération.
20:56Il y a une dernière question, j'imagine, au fond de la salle pour Camilla.
21:12Bonjour, Camilla Penso du Perenne.
21:18Je voulais juste souligner qu'il y a une variable qui est très intéressante,
21:22qui est censée être la langue du contenu.
21:25Il faut vraiment souligner que ce n'est pas obligatoire pour la plateforme
21:30de mettre cette info.
21:32Et donc, si je ne me trompe pas, il y a seulement Google Store
21:36ou quelque chose de similaire qui la met.
21:40Tout le reste est vide.
21:43C'est un problème et ça devrait être changé et rendu obligatoire.
21:50Je ne sais pas si vous avez des idées par rapport à l'inférence de la langue
21:56selon les variables qui existent dans les datasets,
21:59mais de toute façon, une des choses qui doit être améliorée,
22:03c'est effectivement rendre obligatoire ce champ-là.
22:11Je réponds très brièvement.
22:13Effectivement, on s'est rendu compte que cette variable était très mal remplie,
22:17donc on l'a un petit peu laissé de côté.
22:19Mais ça me fait aussi penser à une autre variable qui est territorial scope,
22:22qui est très compliquée à analyser parce que, en gros,
22:25les plateformes doivent indiquer si le contenu affecte tel ou tel
22:30Etat membre de l'Union Européenne.
22:33Dans la plupart des cas, elles disent que ça peut affecter tous les pays.
22:37Par conséquent, ça devient très compliqué à analyser.
22:40Et je suis d'accord avec vous, il faudrait juste les obliger à remplir ça correctement.
22:48Merci beaucoup pour vos réponses et merci beaucoup aux panélistes.
22:54Je pense qu'on va s'arrêter là, mais on pourra continuer les discussions
22:57autour de la machine à café et des boissons.
23:01Rendez-vous à 11h pour le début du deuxième panel.
23:04Merci.