Catégorie
🤖
TechnologieTranscription
00:00 On va passer tout de suite à la présentation de Marc Fadoul,
00:05 monsieur qui va nous présenter un papier co-écrit là aussi,
00:10 "ingérence politique et recommandations algorithmiques, le cas de TikTok".
00:15 Marc Fadoul, vous êtes un ingénieur chercheur, spécialiste des systèmes
00:20 de recommandations et des audits algorithmiques.
00:22 Votre équipe d'appartenance ?
00:25 - C'est Traquien & Exposé.
00:26 En fait, on est une organisation à but non lucratif et principalement,
00:33 ce qu'on fait, c'est qu'on analyse les algorithmes influents,
00:35 en particulier les systèmes de recommandations des réseaux sociaux,
00:38 mais pas uniquement.
00:39 On s'intéresse aussi parfois aux applications de livraison.
00:44 On a analysé l'algorithme d'Amazon et même de Pornhub.
00:48 Donc, ça peut avoir un spectre varié.
00:51 Mais tous ceux-là sont des algorithmes très influents.
00:55 Et donc là, aujourd'hui, je vais vous parler...
00:56 Alors, j'avais des slides, je ne sais pas s'ils sont arrivés.
00:59 Il faut prendre le ponteur, tout à fait.
01:02 Voilà, ça c'est ça.
01:05 Et voilà.
01:06 Donc, Traquien & Exposé, c'est le nom de l'organisation.
01:08 On est une association qui est enregistrée en France, mais on est une quinzaine,
01:13 toutes un peu partout en Europe.
01:15 Et donc, aujourd'hui, je vais vous parler de pourquoi est-ce qu'on a besoin
01:22 d'audits algorithmiques.
01:23 Donc, on a eu déjà dans le premier keynote, on nous a expliqué qu'en effet,
01:28 le DSA allait apporter bientôt tout un nouveau cadre pour apporter
01:32 de nouveaux audits algorithmiques.
01:34 Mais avant, j'aimerais d'abord poser le problème et expliquer pourquoi
01:37 est-ce qu'on peut avoir besoin d'audits algorithmiques.
01:40 On voit que les systèmes de recommandation, ce sont bien sûr
01:44 des systèmes qui sont extrêmement influents dans la diffusion de
01:47 l'information de manière générale.
01:50 On peut dire que ce sont un peu les garants ou les portes de l'Internet.
01:55 Donc, les gatekeepers en anglais.
01:56 Je suis désolé, je vais peut-être faire quelques anglicismes aujourd'hui.
02:00 D'ailleurs, je ne sais pas si quelqu'un a une traduction pour le mot
02:03 "unaccountable" en français.
02:07 Je cherche souvent.
02:08 Pardon ?
02:11 C'est ça, les algorithmes en effet, ne rendent pas de compte.
02:15 Ils sont aussi opaques.
02:17 Ils ne sont en général pas optimisés pour les intérêts des utilisateurs.
02:20 Donc, c'est un peu un problème.
02:22 Et ça, c'est un mème que j'aime beaucoup, qui montre en effet que la
02:27 modération du contenu est souvent au centre des débats, mais qu'en
02:32 pratique, le rôle des algorithmes est tout aussi central, voire plus
02:37 important, pour la régulation du contenu qui est mis face aux utilisateurs.
02:43 Et donc, pour moi, il y a deux principales phases.
02:46 Il y a le contenu qui va être amplifié et le contenu qui va être censuré
02:53 ou démoté, pour très mal traduire.
02:57 Et ça, on a malheureusement assez peu d'outils qui nous permettent de
03:03 savoir quel va être ce contenu qui va être mis en avant ou retiré.
03:07 Donc, le nouveau cadre législatif permet de faire de l'audit qu'on
03:14 appelle coopératif, c'est-à-dire qu'on va se baser sur des API qui vont
03:19 être typiquement des accès aux données mises pour les chercheurs,
03:24 qui vont devoir souvent passer par une phase d'approbation et qui
03:29 sont du coup aussi...
03:31 qui a cette dose de limitation.
03:33 C'est-à-dire qu'on n'a pas forcément toutes les données qui sont
03:35 mises à disposition.
03:36 Et donc, on est en train, comme on a vu dans la première
03:40 présentation, ce n'est pas encore exactement clair aussi, quelles vont
03:43 être les données qui vont être mises à disposition.
03:46 Et aussi, en général, les chercheurs doivent à la base définir
03:50 quelle va être leur question et la question qui vont se poser,
03:54 ce qui peut poser des problèmes d'intégrité parce qu'il faut dire
03:58 à la plateforme "je vais analyser ci ou je vais analyser ça",
04:01 et ce n'est pas forcément des choses qui vont forcément leur faire
04:05 plaisir.
04:06 D'un autre côté, on a ce qu'on appelle les audits adversariels,
04:09 ce qui est ce qu'on fait nous principalement chez TrackingExposed
04:12 et c'est ce qui, principalement, a fait avancer le champ de l'audit
04:15 algorithmique ces dernières années, où là, on ne va pas forcément
04:18 parler aux plateformes, on va faire les choses de manière
04:21 plus indépendante.
04:22 Et c'est du coup aussi plus compliqué parce qu'on n'a pas d'accès
04:26 officiel.
04:27 Donc souvent, il faut scraper.
04:28 Souvent, ça demande pas mal d'expertise et de travail en amont
04:31 pour développer les outils qui permettent de connexer ces données.
04:33 Et on ne peut pas accéder à toutes les données, c'est-à-dire qu'il y a
04:38 notamment, par exemple, les données de modération.
04:41 Souvent, on ne va pas y avoir accès en scrapant, alors qu'on pourrait
04:45 y avoir accès grâce à des API.
04:47 Donc, ce que je veux dire par là, c'est qu'on n'a pas forcément accès
04:51 aux mêmes données de manière coopérative ou adversarielle.
04:54 Mais en mon sens, il y a une forte complémentarité entre ces deux
04:58 approches.
04:59 Et même si, personnellement, je pense qu'il va y avoir un grand
05:04 potentiel grâce aux audits coopératifs introduits par la législation,
05:10 on ne va pas pour autant, ça ne va pas remplacer le besoin
05:13 d'audits plus adversariels.
05:15 Ça, c'est un exemple des outils qu'on utilise pour nos audits
05:20 adversariels.
05:21 Ici, c'est une extension utilisateur que les utilisateurs peuvent
05:24 télécharger, ce qui nous permet de faire aussi des études où on va
05:27 faire du crowdfunding de données, entre guillemets, du crowdsourcing
05:30 de données.
05:31 Et ici, c'est donc pour TikTok.
05:34 Et on a aussi des moyens d'automatiser nos comptes pour pouvoir
05:39 faire des expériences qu'on peut reproduire de manière à l'échelle.
05:45 Ici, je vais vous donner un petit peu l'exemple d'un audit qu'on a
05:50 réalisé sur TikTok au début de la guerre en Ukraine.
05:54 Quand la guerre a commencé, on s'est demandé qu'est-ce que TikTok
06:00 allait recommander sur son "For You" feed, à la fois aux utilisateurs
06:03 en Ukraine et en Russie.
06:06 Et en fait, on n'a pas été déçus d'avoir regardé parce que très
06:11 rapidement après le début de la guerre, on est le 6 mars,
06:14 on a remarqué qu'en fait, tout le contenu international,
06:19 c'est-à-dire qu'il ne venait pas d'adresses IP russes, avait été bloqué
06:25 pour les utilisateurs russes sans que TikTok n'en fasse part de
06:28 manière publique.
06:29 En fait, les utilisateurs russes se retrouvaient plus qu'avec 5 %
06:33 du contenu disponible sur la plateforme.
06:35 C'est-à-dire que la majorité du contenu avait disparu.
06:38 Ici, on voit Charlie D'Amelio qui est la TikTokuse la plus populaire
06:43 sur la plateforme.
06:44 On voit comment sa page apparaissait partout, à droite et à gauche,
06:49 depuis la Russie, on voyait qu'il y avait "No content",
06:52 donc c'était complètement vide.
06:54 Ce qui est aussi particulièrement frappant, c'est que d'un autre
06:57 côté, il y avait pas mal de chaînes russes, notamment par exemple
07:02 les médias russes comme RT, RT2D et compagnie.
07:06 RT2D, pardon, qui avaient été bloquées en Europe.
07:09 Donc, on avait vraiment un split Internet qui était créé par les
07:12 plateformes où on avait d'un côté certains contenus qui étaient
07:15 accessibles qu'aux Russes et que le reste du monde n'avait pas accès
07:18 et vice versa en Europe.
07:20 Et donc, ça, c'était essentiellement défini en interne par TikTok et
07:26 de manière là aussi très opaque et sans que ce soit communiqué.
07:31 Quelques semaines après, ici, on a fait un deuxième rapport.
07:37 En fait, TikTok avait fait deux choses.
07:39 Non seulement, ils avaient bloqué l'accès au contenu international
07:43 depuis la Russie, mais ils avaient aussi, et ça, ils l'avaient
07:45 déclaré, empêché l'ajout de nouveaux contenus depuis la Russie.
07:50 Donc, c'est ce qu'ils avaient fait, un "upload ban".
07:53 Et nous, on s'était demandé, en fait, quel a été l'impact de
07:57 cette mesure sur le contenu qui était disponible en Russie
08:02 pour les utilisateurs à propos de la guerre.
08:05 Et ça, c'était assez important parce qu'au début du conflit,
08:08 TikTok était vraiment considéré comme un risque pour le Kremlin
08:11 parce qu'il y avait justement beaucoup de contenu international très
08:14 critique face à la guerre et c'était très utilisé aussi par la jeunesse
08:17 russe.
08:18 Le marché russe était...
08:19 La Russie était le cinquième...
08:20 était, oui, avant le début de la guerre, le cinquième marché pour
08:23 TikTok.
08:24 C'est vraiment une plateforme très utilisée en Russie.
08:27 Et il y avait évidemment la Russie, la jeunesse qui voyait beaucoup
08:30 de narratifs anti-guerre dessus.
08:33 Et donc, il pouvait y avoir un vrai risque de déstabilisation pour
08:36 le Kremlin.
08:37 Et ce qu'on voit en bleu ici, c'est les narratifs anti-guerre qui,
08:41 au début de la guerre, étaient dominantes.
08:43 Et en rouge, c'était les narratifs pro-guerre.
08:46 On a fait ça en analysant un ensemble de hashtags qui étaient
08:50 pro-guerre et anti-guerre.
08:51 Et on voit ici, le 6 mars,
08:54 au moment où il y a ce gros...
08:57 C'est pas...
08:58 C'est le moment où TikTok met en place sa politique qui empêche
09:01 le nouveau contenu.
09:02 On voit qu'il y a quand même du contenu qui arrive à passer après.
09:05 Ça, c'était un bug, entre guillemets, ou alors une "bac d'or",
09:09 comme on pourrait l'appeler.
09:10 Et on voit que cette bac d'or a principalement bénéficié au contenu
09:14 pro-guerre, qui continuait à pleuder du contenu malgré la politique
09:19 qui était censée l'empêcher et qui a du coup complètement inversé
09:22 la tendance du type de contenu qui était trouvé en Russie à propos
09:26 de la guerre où on voyait qu'il n'y avait plus que des narratifs
09:28 pro-Kremlin.
09:29 Et ceci en conséquence, entre guillemets, des politiques de TikTok.
09:34 Enfin, en août, on a fait un dernier rapport où là, on s'est rendu
09:39 compte qu'il y avait du contenu que TikTok avait banni en théorie.
09:47 C'est-à-dire que quand on accédait directement à la page, le contenu
09:49 n'apparaissait pas, il était présenté comme "this content is unavailable",
09:53 alors qu'on l'a vu apparaître dans la "for your feed", c'est-à-dire
09:58 les recommandations algorithmiques.
09:59 Donc ça, c'était un phénomène qu'on n'avait jamais vu, qu'on a appelé
10:02 "shadow promotion" à l'opposé de "shadow banning" où le "shadow banning"
10:06 en général, c'est le contraire.
10:07 C'est-à-dire qu'on voit du contenu qui a l'air d'être disponible
10:09 quand on y accède directement, alors qu'en fait, il est bloqué
10:11 des recommandations algorithmiques.
10:13 Et ici, c'était le contraire, c'est-à-dire qu'on le voyait dans
10:16 les recommandations algorithmiques alors qu'à première vue, il avait
10:19 l'air d'être bloqué.
10:20 Et donc ici aussi, on voit que c'est un vrai problème de "accountability"
10:25 vis-à-vis de l'algorithme.
10:26 On ne sait même pas quel contenu est disponible ou pas sur la plateforme
10:29 parce qu'on ne sait pas ce qui est recommandé ou recommandable
10:33 par l'algorithme.
10:34 Nos rapports ont été repris notamment par des sénateurs américains
10:42 pour demander des comptes à TikTok.
10:45 C'est juste pour dire que si jamais l'Arkom veut faire utilisation
10:48 de nos rapports pour pointer du doigt les plateformes, on est heureux
10:52 de faire ça en partenariat.
10:55 Et aussi, c'est pour montrer que ce type d'audits adversariels
11:02 vont rester nécessaires malgré, je pense, l'introduction du DSA
11:06 et de nouvelles méthodes pour analyser ces systèmes.
11:10 La première raison, c'est parce qu'il y a un périmètre d'observation
11:14 qui est différent, notamment les spécificités géographiques.
11:18 C'est a priori pas des choses qui sont prises en compte ou qui sont
11:20 mentionnées dans les cadres régulatoires et qui, comme on le voit,
11:24 sont très importants parce que le "géoblocking" ou la censure
11:30 géographique, c'est un phénomène qui est de plus en plus présent.
11:34 Et donc, je pense que c'est particulièrement important de pouvoir
11:37 l'analyser.
11:38 Il en est de même pour les dynamiques de personnalisation qui sont
11:40 en général assez difficiles à analyser avec des API parce qu'il faut
11:45 en fait prendre un compte, lui faire avoir le profilé d'une certaine
11:49 manière et ensuite voir comment l'algorithme se comporte.
11:52 Et ça, c'est ce qu'on fait typiquement avec nos audits adversariels.
11:55 Et en plus, on n'est pas obligé de demander à Facebook ou à TikTok
11:59 l'autorisation en leur disant ce qu'on va analyser.
12:02 Et ça, je pense, c'est important, notamment en termes d'intégrité
12:05 des données.
12:06 Ici, je prends l'exemple de CrowdTangle qui est intéressant parce que
12:09 CrowdTangle, c'était un des premiers outils qui étaient vraiment...
12:12 La plateforme avait été pour une fois, elle a fait un pas de bon élève
12:16 en donnant un accès aux données aux chercheurs.
12:20 Et ce qu'on s'était rendu compte, c'est que pendant l'invasion du
12:23 Capital, il y avait des posts qui avaient été...
12:26 On s'est rendu compte qu'il y avait beaucoup de données qui étaient
12:28 manquantes sur l'outil.
12:30 Et comme par hasard, Facebook a dit que c'était un bug.
12:33 Mais comme on voit, c'est que le moment où on a vraiment besoin de
12:38 transparence et de responsabilité des plateformes, est-ce qu'on peut
12:41 vraiment faire confiance aux outils qui sont donnés et mis à accès
12:45 par les plateformes ?
12:47 Je pense que ce n'est pas certain.
12:48 Si on imagine qu'un jour, la Chine invahisse Taïwan, est-ce qu'on a
12:53 envie de se baser sur les API officielles de TikTok pour analyser
12:58 quel contenu va être mis en avant à ce sujet sur la login de
13:01 recommandation ?
13:02 Personnellement, je ne suis pas sûr.
13:05 Et donc, voilà, ça, c'est un appel à contribution de plusieurs
13:10 manières que vous pouvez faire si vous êtes intéressé.
13:12 D'une manière, déjà le développement.
13:14 Je pense que nous, tout le code qu'on fait, on le met en accès en
13:18 logiciels libres, en Free Software.
13:20 Je pense que c'est important d'essayer de collaborer, notamment
13:24 les équipes de recherche qui travaillent sur des outils similaires,
13:26 de mettre le code en commun pour éviter de dupliquer des efforts.
13:29 Notamment, je sais que le PRN travaille sur des choses comme ça,
13:33 mais aussi diverses universités.
13:34 On est vraiment prêts à travailler en collaboration.
13:38 En termes de régulation, ce serait bien aussi d'avoir des
13:42 protections légales parce qu'on a des outils parfois de scraping qui
13:45 sont attaqués par les plateformes.
13:46 Il y a eu le cas notamment d'une universitaire à l'Université de
13:50 New York, mais aussi même à Algorithm Watch qui sont pris des
13:52 lettres d'intimidation juridique par Facebook.
13:56 Donc, ce serait bien d'avoir aussi une espèce de protection légale
14:00 pour ce type de recherche d'intérêt public.
14:03 Le financement, évidemment, on est principalement financé par
14:06 des fondations américaines, ce qui est quand même un peu dommage
14:09 alors qu'on essaie de défendre le droit européen et la souveraineté
14:14 européenne.
14:15 Et enfin, le monitoring.
14:18 Si vous faites des outils algorithmiques, vous pouvez nous
14:21 contacter et nous, on peut aussi vous aider parfois avec nos outils.
14:23 Merci.
14:26 [Applaudissements]