https://www.arcom.fr/actualites/troisieme-journee-detudes-de-larcom-presentation-des-travaux-des-chercheurs-sur-les-medias-audiovisuels-et-numeriques
Catégorie
🗞
NewsTranscription
00:00Comment est-ce possible d'avoir un cadre d'analyse pour les risques et l'évaluation des pratiques de plateformes ?
00:05Comme on l'a vu, on peut avoir un cadre d'analyse pour les risques et l'évaluation des pratiques de plateformes.
00:12On a besoin de données, on en a parlé en introduction.
00:15Mais on a aussi besoin parfois d'outils pour analyser ces données.
00:19Et c'est pour ça que je vais changer d'anglais pour la première présentation
00:23et donner la parole à Yannick Zeller, Thibaut Grison et Virginie Julliard.
00:28Yannick, vous êtes un scientifique de données à CERES,
00:32le Centre d'expérimentation en méthodes numériques pour les recherches en sciences humaines et sociales.
00:37Thibaut, vous êtes un étudiant doctoral à CELSA-GRIPIC.
00:41Votre thèse concerne la discrimination algorithmique et la modération des contenus,
00:45mais on va en savoir plus cet après-midi.
00:48Et Virginie Julliard, vous êtes professeure complète à CELSA-GRIPIC, fondatrice et directrice de CERES.
00:54Votre travail se concentre sur la représentation du genre dans les médias
00:56et sur l'utilisation des sciences de la computerisation dans les sciences sociales.
01:00La parole est à vous.
01:02Merci beaucoup. Nous avons conçu cette présentation en deux langues.
01:07Thibaut et moi parlerons en français et Yannick en anglais.
01:10Tout d'abord, merci beaucoup à l'ARCOM pour l'organisation de cette journée
01:14qui nous permet de présenter nos travaux.
01:17Nous sommes une équipe de chercheurs et chercheuses en sciences de l'information et de la communication
01:28dont les travaux de recherche portent sur les polémiques, les débats, les représentations
01:34qui intègrent des enjeux en termes de genre, d'homophobie, de racisme, etc.
01:40Et c'est important parce que ce dont on voudrait parler ce matin,
01:44c'est expliquer comment en travaillant sur ce type d'objet,
01:48on peut expérimenter aussi les limites de ce qu'il est offert ou possible de faire
01:53quand on est chercheur et chercheuse pour travailler sur ce type de risque systémique.
01:58Je vais très vite parce que l'intérêt est de venir sur des enjeux méthodologiques,
02:03c'est-à-dire finalement qu'est-ce qu'on peut faire,
02:05quels sont les verrous techniques et méthodologiques
02:08quand on veut travailler sur notamment des réseaux sociaux.
02:11Donc nous avons conçu une équipe de recherche qui compte un certain nombre d'ingénieurs
02:17dont certains sont dans la salle aujourd'hui
02:20et qui ont contribué aux travaux que l'on vous présente aujourd'hui.
02:24CERES est une unité de service de Sorbonne Université
02:28qui réunit donc des ingénieurs en informatique mais aussi en design.
02:33C'est important pour ce qui concerne la restitution d'informations extrêmement complexes.
02:38Nous avons acquis un certain nombre d'expertises
02:41sur des réseaux comme Twitter X, Facebook, Instagram.
02:44On a parlé tout à l'heure de Crottangle.
02:46Crottangle présente un certain nombre de problèmes méthodologiques
02:49dans la mesure par exemple où quand on travaille sur les militants LGBT,
02:53la façon dont ils sont censurés par les réseaux sociaux,
02:57et bien en réalité Crottangle pose un problème méthodologique et éthique
03:01puisqu'il faut que l'on précise quels sont les comptes qu'on suit
03:05et en indiquant par là à Crottangle quels sont les comptes de militants LGBT.
03:09Donc on participe aussi à nourrir des informations sur des catégories
03:14qui sont pourtant présentées comme étant protégées par des entreprises comme Meta.
03:19Également nous avons commencé à travailler sur TikTok
03:23alors avant l'ouverture de l'API et après l'ouverture de l'API
03:26et c'est justement sur ce point que l'on voudrait vous expliquer
03:29quels sont les avantages de l'ouverture de l'API,
03:32quels sont ses limites et comment on peut la combiner
03:35avec d'autres méthodes que l'on a testées avant cette ouverture.
03:41Merci Virginie.
03:42Alors oui effectivement en fait ce travail sur l'API de TikTok
03:47intervient à un moment où on se demande entre 2020-2023
03:52après un boom de téléchargement de l'application de TikTok
03:55au moment du Covid, du confinement etc.
03:58On se demande comment en fait faire de la recherche sur cette plateforme
04:01qui est essentiellement caractérisée du coup par des contenus vidéo d'une part
04:05et d'autre part une plateforme dont on ignore presque complètement
04:09le fonctionnement en particulier algorithmique
04:12et en fait ce qui se passe c'est qu'en 2023
04:14au moment où TwitterX ferme l'ouverture de son API
04:19donc une interface logicielle qui permet à des chercheurs en particulier
04:23d'accéder à un certain nombre de données
04:26sans la recommandation algorithmique personnalisée
04:29donc au moment où cette ouverture de l'API se fait pour TikTok
04:32c'est au moment où celle de Twitter se ferme.
04:34Donc c'est un peu vu par la communauté scientifique
04:37comme une forme d'aubaine en fait pour la recherche.
04:40Ça intervient aussi à un moment où l'entreprise détentrice de TikTok
04:44se positionne finalement différemment.
04:47C'est-à-dire qu'en 2023, TikTok est menacée de bannissement
04:51dans plusieurs pays en particulier aux Etats-Unis
04:53où ça soulève presque un enjeu même diplomatique
04:56et aussi sur le sol de l'Union Européenne.
04:58En France, pour citer un exemple politique particulier
05:01c'est aussi le moment où il y a un rapport sénatorial
05:04qui est publié à charge contre TikTok
05:07et justement sur l'opacité de cette plateforme.
05:10Donc du coup cette API s'ouvre
05:12et du coup elle intervient comme je disais
05:15comme un nouveau positionnement
05:17où TikTok va se positionner finalement comme
05:20alors que c'était le mauvais élève en matière de régulation des plateformes
05:23va se positionner finalement comme le bon élève.
05:25Donc ça c'est assez intéressant
05:27parce que ça relève d'un positionnement marketing
05:29et aussi d'un positionnement en anticipation
05:32du Digital Services Act, donc quelques mois avant finalement.
05:36Sauf que, évidemment, on est confronté en tant que chercheurs
05:41notamment en SHS quand on travaille sur ces plateformes-là
05:45à déjà des premières limites.
05:46Yannick vous en présentera d'autres juste après
05:49avant de vous présenter la méthode que nous on a mis en place
05:52parmi d'autres et qu'on vous propose aujourd'hui.
05:55J'en cite quelques-unes ici pour ne pas prendre trop de temps.
05:58La première c'est évidemment
06:01et ça entre aussi en résonance avec le fameux article 40 du DSA
06:06c'est que quand on passe par TikTok pour faire de la recherche
06:10c'est TikTok qui choisit quel projet est éligible ou non
06:14pour faire de la recherche sur cette plateforme.
06:16Ce qui peut causer d'ailleurs un effet d'autocensure.
06:19C'est mon cas par exemple.
06:21Je travaille sur la modération des réseaux sociaux sur les plateformes
06:24et donc du coup on en vient à s'autocensurer aussi
06:26quand on travaille non pas sur des corpus extraits de la plateforme
06:29mais quand on étudie son fonctionnement.
06:31Une autre limite que je peux vous présenter ici aussi
06:33c'est des injonctions fortes aussi en matière de
06:36quelles données sont publiables ou non.
06:39Et ça encore une fois c'est TikTok qui décide
06:41ce qui pose tout un ensemble de questions.
06:42Et la principale limite, et je m'arrêterai là avant de laisser la parole à Yannick
06:47la principale limite selon moi c'est tout simplement comme je vous disais
06:50TikTok est caractérisé comme une plateforme de vidéos.
06:53On est des chercheurs en sciences humaines et sociales
06:55qui travaillons sur la vidéo.
06:57Et en fait cette API ne permet tout simplement pas de collecter de vidéos.
07:00Donc c'est-à-dire que vous transformez le contenu vidéo
07:03en exclusivement des métadonnées
07:06que vous mettez dans des tableurs ou du texte.
07:09Ce qui est fort intéressant mais qui pose des problèmes
07:12comme dans notre cas, comme Virginie l'a évoqué
07:14où on travaille sur des discours, des circulations, etc.
07:17Et donc on ne peut pas étudier la vidéo ou le son.
07:19Je laisse la parole à Yannick.
07:24Merci beaucoup Thibault.
07:26Merci à toutes et à tous et à l'ARCOM aussi
07:30pour nous donner cette opportunité de présenter notre travail.
07:35Je vais changer d'anglais maintenant parce que ma partie sera un peu technique.
07:40Nous essayons de la garder au moins technique possible.
07:44Mais, et c'est aussi un peu l'esprit de notre travail à Thérèse,
07:50la partie technique est une partie nécessaire
07:55et nous devons en parler.
07:57Et c'est ce que je vais faire maintenant.
08:00Donc nous avons essayé dans notre équipe
08:04de faire le plus d'information possible sur l'API
08:08et nous avons essayé de développer un outil
08:13qui permet aux autres chercheurs
08:17d'oublier le travail que nous avons déjà fait.
08:20Donc nous avons passé l'année dernière
08:24en travaillant avec plusieurs personnes,
08:26vous pouvez le voir dans les noms décrits dans le papier,
08:29pour développer un framework
08:34pour collecter ce genre de données
08:36qui permet de produire des résultats raisonnables
08:42sur tous les sujets qu'on a déjà évoqués.
08:47Comme nous l'avons dit au début de la parole,
08:49TikTok est un nouveau média social,
08:54il est devenu plus important dans les dernières années
08:58et en ce qui concerne les discours publics en cours,
09:03il va probablement augmenter dans sa importance.
09:08Je vais essayer de vous montrer les limites techniques
09:14que nous avons trouvées en travaillant avec l'API.
09:17Vous les voyez ici.
09:20Les deux points principaux que je veux vous donner
09:25c'est que c'est extrêmement difficile
09:29de produire des résultats raisonnables.
09:32Si vous vous montrez vos résultats,
09:34pour que quelqu'un d'autre puisse réaliser les mêmes résultats
09:36et comprendre comment vous avez obtenu vos résultats,
09:39c'est extrêmement difficile.
09:41La façon dont les données sont désignées
09:46fait aussi que c'est difficile
09:51d'obtenir des relations entre différents discours.
09:58Nous avons donc essayé de créer un framework
10:03dans lequel l'utilisateur
10:06doit avoir le moins de connaissances techniques possible.
10:10Il ou elle doit donc spécifier
10:15l'identité de l'API
10:17que l'utilisateur obtient
10:19quand il ou elle obtient accès à l'API par TikTok
10:23et doit spécifier les critères de recherche
10:28qu'il ou elle recherche.
10:32La deuxième étape, c'est que TikTok
10:35et c'est quelque chose que l'utilisateur
10:37n'a pas vraiment à s'inquiéter,
10:39fait la requête à l'API
10:44et tous les données sont stockées dans un database SQL.
10:51De cette façon, nous obtenons une histoire
10:54de toutes les interactions qui ont été faites avec l'API
10:58et cela permet ensuite d'entendre
11:02le processus de collection
11:04et d'entendre pourquoi l'API a réagi d'une certaine façon.
11:11La dernière étape, qui est aussi faite par Cytalk,
11:17c'est de pré-processer les données.
11:20C'est-à-dire de présenter les données
11:22d'une manière que nous considérons utile
11:24pour beaucoup d'intérêts de recherche.
11:29En particulier, je voudrais emphasiser
11:32qu'on s'est concentré sur la création d'un framework
11:36disponible pour présenter les données
11:39dans un graphique.
11:41C'est la vue du niveau supérieur de ce que nous avons développé.
11:51Je serais très enthousiaste d'échanger avec vous
11:56et d'avoir vos idées sur ce sujet
12:00peut-être dans les discussions ou même dans le débat.
12:05Je passe la parole à Virginie.
12:11Merci beaucoup Yannick.
12:13Pour résumer, avant l'ouverture de l'API,
12:16nous avons essayé de faire à notre sauce,
12:18si on peut dire, en scrapant des vidéos,
12:21des contenus qui nous importaient,
12:23sur les questions notamment de racisme,
12:25des questions de genre.
12:27L'image est importante, la façon dont c'est mis en scène,
12:30le son, etc.
12:32Et quand l'API a été ouverte,
12:34on s'est retrouvés face à une sorte de contradiction
12:36puisque TikTok n'autorisait pas le recours
12:39à ces deux méthodologies.
12:41C'est-à-dire que si on a un accès à l'API,
12:43on n'a plus le droit de faire du scrapping.
12:45Sauf qu'on s'aperçoit avec ces deux méthodologies
12:48que chacune a son avantage.
12:50Il y a une collecte systématique qui est permise par l'API
12:53mais qui ne nous permet pas de recueillir
12:55des informations qui nous intéressent.
12:57Et via le scrapping, on recueille les vidéos
13:00mais il y a des éléments, peut-être des métadonnées
13:02qui sont moins consistantes.
13:04Donc l'intérêt pour la recherche
13:06pour lever ce verrou méthodologique,
13:08c'est de faire les deux.
13:10TikTok ne l'autorise pas,
13:12mais heureusement les régulateurs si.
13:14On est quand même dans une situation
13:16un peu inconfortable parce que si on communique
13:18sur nos résultats et que TikTok s'aperçoit
13:20qu'on fait ça, on peut se retrouver banni
13:22de l'accès à l'API.
13:24Voilà peut-être des éléments de réflexion.
13:26Merci beaucoup.