Matilda, outil bibliographique et bibliométrique

Couperin

il y a 3 mois

Didier Torny, directeur scientifique de la plateforme Matilda et directeur de recherche au CSI-i3 (CNRS, Mines Paris-PSL), présente ses principes de fonctionnement et d'utilisation et revient sur la place de Matilda dans l'écosystème de la science ouverte. L'objectif de Matilda est en effet de faire en sorte que les données de références et de citations soient désormais aussi utilisables que les textes et jeux de données de la recherche en accès ouvert, et de permettre l'intervention des utilisateurs comme enrichisseurs des données bibliométriques, dans une approche résolument tournée vers les besoins documentaires des chercheurs.

Transcript

Display full video transcript

00:00Bonjour à toutes et tous, nous allons donc pouvoir commencer, vous êtes déjà très

00:14nombreux.

00:15Merci d'avoir répondu présent à l'invitation du groupe Interopérabilité et Données du

00:21GTS au Couperin.

00:22Le webinaire aujourd'hui est consacré à Mathilda, un moteur de recherche académique

00:27qui a été conçu comme une alternative ouverte à des outils comme Google Scholar et dont

00:32le développement est coordonné depuis 2019 par notre invité Didier Torny.

00:37Didier, merci d'avoir accepté de nous présenter Mathilda aujourd'hui, vous êtes directeur

00:43de recherche au CSI, le centre de sociologie de l'innovation au sein de l'UMR iCube,

00:50qui est une UMR des Mines Paris de PSL et du CNRS, vous êtes sociologue, vous êtes

00:57notamment saisie de la question de l'évaluation de la recherche et des modèles de publication,

01:01d'accords transformants, de peer reviewing en contexte de sciences ouvertes, vous menez

01:06également des recherches en sociologie du risque, en sociologie de la gestion sanitaire,

01:11vous êtes déléguée scientifique à la direction des données ouvertes de la recherche

01:14au CNRS, vous êtes membre du comité international d'opénicitation, vous avez par ailleurs

01:21été copilote du groupe d'évaluation du COSO et donc vous êtes aujourd'hui ici

01:26pour nous présenter Mathilda dont la V3 vient juste d'être mise en production.

01:30Alors juste avant de vous laisser la parole, un petit point rapide sur le déroulement

01:35du webinaire, après votre présentation, on a prévu un petit temps d'échange de

01:3915 minutes environ, donc si des personnes ont des questions, elles peuvent les poser

01:43directement dans le chat pour que Didier puisse en prendre connaissance et y répondre après

01:48sa présentation et je rappelle, mais vous avez vu que c'était affiché, que le webinaire

01:53est enregistré et qu'il sera donc disponible en replay sur le site du GTSO et donc je

01:59vous laisse la parole Didier.

02:01Merci beaucoup aux organisatrices et organisateurs pour cette invitation et merci beaucoup à

02:09toutes celles et tous ceux qui sont là en ligne, je vais faire une présentation qui

02:14sera en trois temps, en cours, à peu près 25 minutes au total, je commencerai par un

02:22petit keynote qui rappellera en fait les objectifs et la manière dont le développement

02:30a eu lieu avant de faire une courte démonstration et enfin d'aller vers les perspectives.

02:36Alors je vais commencer par un petit keynote simple, ce que je demanderai aux organisatrices

02:43c'est de m'indiquer quand un quart d'heure est passé puisque j'arrêterai la démonstration

02:48en fait à ce moment-là pour garder dix minutes pour les perspectives, disons neuf

02:52minutes pour les perspectives.

02:55Alors ce qu'il faut comprendre c'est que par rapport au développement de la science

03:03ouverte de manière générale, il y a en fait un parent pauvre que j'ai identifié

03:07dès 2015-2016 qui était les données bibliographiques et les outils bibliographiques, on était

03:14dans une situation un peu paradoxale où d'un côté on rendait les textes de plus

03:18en plus ouverts, je ne parle pas ici des données et du reste, et en fait du point de vue des

03:24outils bibliographiques et de leur usage on avait toujours une domination par deux grands

03:30outils commerciaux que vous connaissez toutes et tous, donc le Web of Science et Scopus

03:35dont les degrés de fermeture sont même variables, et puis un outil commercial et non commercial

03:42on va dire, Google Scholar, puisque je vous rappelle que Google Scholar est le seul service

03:50développé par Google sur lequel il n'y a pas de traçage des données et c'est pour

03:53ça que vous pouvez aller dessus sans déclaration GDPR, et donc on était dans cette situation

04:00là où les textes devenaient de plus en plus ouverts et à côté leurs métadonnées étaient

04:08elles-mêmes pas du tout ouvertes et au contraire on avait l'utilisation d'outils fermés. Alors ces

04:16dix dernières années il y a eu quand même pas mal de briques qui sont apparues, qui étaient

04:20importantes, Open Citations sur laquelle je reviendrai, l'initiative Open Citations qui a

04:26joué un rôle central dans la libération de l'ensemble des données CROSSREF, sans cela Mathilda

04:34aurait été confrontée à d'autres obstacles lors de son développement. On a différentes choses

04:39qui existent comme Isidore, dont on a beaucoup bénéficié puisque le co-développement a eu

04:45lieu avec Oumanou, ou Open Alex, mais on peut dire de mon point de vue qu'il n'y a pas d'outils

04:51simples pour toutes et tous. Alors qu'est-ce que j'entends par outils simples et par toutes

04:56et tous ? Outils simples c'est-à-dire pour des gens comme moi qui ne savent pas écrire une ligne de code,

05:00qui ne savent pas utiliser un API, et toutes et tous au sens vraiment à la fois de public

05:07extra-académique et de public académique dans toutes les disciplines. Jusqu'à septembre dernier,

05:14dans lequel Mathilda version 2 a été rendue publique et disponible, avec des principes

05:22essentiels qu'on va continuer à retrouver ici en v3. Donc les sources sont des sources ouvertes,

05:29parfaitement utilisables et réutilisables. L'enrichissement se fait par des données

05:34ouvertes, ici principalement Orkady et Unpaywall. On a des fonctions de citation tracking,

05:41d'export vers Zotero, des liens de texte, et on a des alertes via des flux RSS.

05:49Entre la v2 et la v3, on a des nouvelles fonctionnalités. Je vais évidemment les

05:56montrer, mais c'est simplement pour les rappeler et montrer l'orientation. Donc,

05:59premier élément essentiel, j'imagine dans la culture qui est la vôtre, le moteur simple est

06:05devenu un moteur boudéen avec des end or not sans limites. Point essentiel qui est apparu après un

06:13très très long travail, nous avons changé de technologie de graph, nous sommes passés de

06:17GraphDB à Neo4j. Donc ça peut paraître comme ça très technique, mais en pratique ça signifie

06:21qu'il n'y a plus de fonction de dédoublonnage à l'intérieur. Le dédoublonnage s'effectue au

06:27moment de l'arrivée des nouveaux textes et on a des tas de choses qu'on peut faire avec le graph,

06:32qu'on ne pouvait pas faire avant, par exemple, liées en fonction du nombre de citations.

06:39Dernier élément essentiel, on a commencé à gérer des PDF légalement disponibles via

06:44Agrobid. Donc, en un mois, au mois de mars, on en a fait 6,5 millions. On travaille quand même à

06:52très grande échelle. Aujourd'hui, ce n'est pas encore rebranché, ça devrait avoir lieu entre la

06:58semaine prochaine et la semaine suivante. On va opérer tout un rattrapage avec l'idée à terme

07:03d'avoir les 25, 30, 40 millions de PDF légalement disponibles qui sont donc indexés. Elles ne sont

07:12pas présentes directement dans Matilda, mais ils sont indexés, ce qui permet de les rendre

07:19cherchables. Dernier point de cette partie, quel est l'un des principes essentiels de Matilda ?

07:28Tous les textes sont nés égaux. On va considérer qu'il n'y a pas de raison de sélectionner des

07:34textes, que ce soit sur la base de la langue, du type de texte, article, conférence, procédure,

07:38chapitre, tout ce que vous voulez, ou de la qualité des auteurs ou autres. On prend tout

07:43ce qui existe dans les sources que nous avons sélectionnées. Et donc, ça s'appelle Matilda,

07:48parce que cet article essentiel de Margaret Rossiter, qui porte sur la question de l'histoire

07:55des femmes, et notamment l'histoire des femmes en science, c'est de montrer que non seulement on a

08:00des effets, on va dire, plus tu gagnes, plus tu gagnes, mais on a des effets plus tu perds,

08:06plus tu perds, à l'intérieur même de la production scientifique, mais aussi de l'histoire

08:12de cette production scientifique, dont non seulement les femmes étaient invisibilisées

08:16ou largement minorisées pendant le processus scientifique, compris dans la signature des

08:21articles, mais également, ensuite, dans l'histoire de ce processus scientifique,

08:24on avait une deuxième couche d'invisibilisation. Or, ce qui nous intéresse ici, c'est que les

08:31outils commerciaux dont j'ai parlé, en fait, opèrent des sélections qui ne sont pas du tout

08:35des sélections sur la base de sciences, mais qui sont des sélections à la fois d'héritage

08:39technique, de choix, on va dire, centrés sur l'anglo-américain, ou de choix centrés sur

08:44certains types de production, comme les articles scientifiques. Nous, nous voulons faire le contraire,

08:49c'est-à-dire ouvrir à tous les textes qui sont, on va dire, partagés à travers des sources ouvertes.

08:57Donc, je vais changer de logiciel maintenant, je vais passer, j'espère, le plus rapidement

09:01possible à la démonstration. Voilà, je vais repartager. Hop, s'il y a un problème, n'hésitez

09:09pas, évidemment, à m'indiquer qu'il y a un problème. OK. Donc, je passe ici. Donc, j'ai

09:17pris Chrome, mais évidemment, ça fonctionne sur tous les navigateurs, type de fenêtre,

09:22c'est responsif, etc. Tout est développé en OSS. Voilà, pas par moi. Moi, je n'ai pas écrit une

09:30ligne de code. Il faut être très clair. Donc, ici, c'est la home page. Vous voyez un certain nombre

09:37d'éléments, très clair. Donc, le nombre d'œuvres, là, je vais juste rentrer sur un point technique,

09:42on va séparer les publications d'un côté, qu'on pourrait aussi appeler des versions,

09:46et d'autre part, les œuvres qui regroupent ce que le logiciel va considérer comme étant

09:53des publications similaires. Voilà, donc là, il n'y a pas 133 millions de textes,

09:59on a plutôt entre 200 et 250 millions. Mais, on va dire, le préprint, la version archivée,

10:06la version publiée, tous ces éléments peuvent être rapprochés et mis ensemble avec une logique

10:13très conservatrice, on va dire. C'est-à-dire qu'on cherche à ne pas créer des œuvres qui

10:24rassembleraient des textes qui n'ont rien à voir les uns avec les autres. Donc, ici, la recherche,

10:28c'est très simple. Donc, on tape en texte naturel avec des éléments classiques, des parenthèses,

10:35des guillemets, etc. Et on peut arriver, là, on est en direct, ce n'est pas une fausse démo,

10:42on est vraiment sur la chose. On arrive sur un autre type de page, qui est la page de résultats.

10:49Vous avez à gauche toute une série de filtres et d'éléments que je vais décrire dans un instant.

10:54Et en face, vous avez des résultats, vous voyez ici, triés par pertinence, mais on peut également

10:59trier par le plus cité, les plus récentes et les plus anciens. Vous avez le nombre de résultats

11:03ici. Et ici, un certain nombre d'éléments que je vais décrire dans un instant. Donc,

11:08je voulais simplement vous montrer que les plus cités, en fait, peuvent être très souvent

11:13décevantes. Parce qu'on est tellement habitué sur Google Scholar, en fait, à avoir les choses les

11:18plus citées en haut. Mais en fait, c'est un mélange de pertinence et de citation. Très souvent,

11:21la plus citée, en fait, va être quelque chose qui est marginal du point de vue du sujet. Ce qui va

11:28être éventuellement plus intéressant, c'est les plus récentes. Ce qui me permet d'insister tout

11:33de suite sur le fait que Matilda fonctionne en continu et tous les jours. Et tous les jours,

11:39et avec un décalage d'environ deux jours sur les sources. Donc, si vous voyez, c'est un texte qui

11:45est du 16 mai 2024 et qui est déjà intégré dans Matilda. Je vais simplement l'ouvrir ici pour vous

11:55dire ensuite, voilà, si vous êtes intéressé, ce à quoi vous avez accès. Vous avez accès aux sources.

12:01Encore une fois, là, c'est uniquement si ça vous intéresse. Aux sources, à la manière dont c'est

12:05traité, etc. Et ici, vous avez accès au DOI. Donc, si on clique dessus, on ouvre un nouvel anglais et

12:12on va sur la page du DOI. Et on a le PDF qu'on peut ici télécharger, le bit text. Mais si je

12:20reviens ici, vous pouvez sélectionner l'ensemble des textes qui vous intéressent. Voilà. Et on

12:30peut descendre de manière continue. Et ensuite, par exemple, tous les sélectionner. Alors,

12:35uniquement ceux que vous avez vus, si j'ose dire. Voilà, vous n'avez pas automatiquement les 5000

12:41qui vont descendre. Donc, vous pouvez les télécharger, encore une fois, par un fichier

12:47bit text. Mais vous pouvez faire autre chose sur laquelle on va revenir dans un instant,

12:54qui est vous abonner à ce flux. On va créer un flux RSS, qui est un flux RSS parfaitement stable,

13:01comme on est en source ouverte, parfaitement disponible, exposable, réutilisable, partageable,

13:07sans aucune limite. Et qui va vous donner les résultats classés en fonction des plus récents.

13:14Et dans le cas du flux RSS, en fait, les 100 derniers résultats. Voilà, je vais aller tout

13:19de suite sur Zotero. Mais avant, je voulais vous indiquer ici les filtres. Donc, vous pouvez filtrer

13:24par différents éléments. Ici, les choses qui sont importantes en bas. Vous voyez que la recherche est

13:30inclue dans les PDF et inclue dans les références. Vous allez voir le résultat être modifié. Si

13:36j'enlève les références, voyez, on est passé de 5349 à 5143. Et si j'enlève les PDF, on passe à

13:43415. Donc, on a un rapport de 1 à 10, ce qui est assez classique sur ce type de recherche. Et donc,

13:49ça dépend évidemment de ce que vous recherchez et comment vous venez le rechercher. Donc, j'ai

13:55parlé tout de suite du flux RSS. Le flux RSS ici, il y a 4 clics à faire. Vous pouvez le copier. Et

14:03par exemple, en disposer sous Zotero. Donc ici, j'ouvre Zotero. J'ouvre un nouveau flux. Voilà,

14:13je copie l'URL. Et je l'appelle Article Processing Charges Zotero. Le nom est évidemment

14:22parfaitement libre. Et je vais voir afficher les derniers éléments qui vont être présents,

14:29qui sont eux-mêmes copiables, récupérables, dans tous les sens. Ensuite, donc ça c'est pour les

14:43filtres. Les dates, je ne reviens pas. Je répondrai aux questions sur les dates. On est

14:46dans un domaine qui est assez compliqué. On peut toujours circuler à l'intérieur,

14:51puisqu'évidemment, on ne sait rien de la manière dont les chercheurs utilisent des outils de

14:57recherche. On ne sait vraiment rien. Il n'y a aucune littérature. Donc, on conçoit en fait,

15:01nous, des fonctions et des circulations en fonction d'un certain nombre d'hypothèses. Je l'ai dit,

15:07vous pouvez rentrer à l'intérieur, voir s'il y a un résumé, etc. Vous voyez ici les highlights

15:12qui sont disponibles. On a un extrait des métadonnées du résumé. Mais si on descend

15:18plus bas, vous avez accès également à des éléments qui proviennent de PDF. Je cherche un

15:24exemple. Je vais en trouver, puisque comme je l'ai dit, les PDF n'ont pas été pris les deux derniers

15:29mois. Je vais finir par en trouver un. Je n'ai pas sélectionné recherche dans la PDF, donc c'est

15:34normal qu'ils ne trouvent pas dans les PDF. Ici, voilà. Donc là, vous avez quelque chose qui est

15:42en fait extrait du PDF. Donc, il n'y avait pas peut-être d'éléments dans les métadonnées et

15:48vous avez un highlight au sens où ce sont les éléments qui sont ceux que vous recherchez.

15:53J'ai parlé des recherches complexes. J'ai ici préparé une petite recherche comme exemple.

16:03Avec simplement des O. N'oubliez pas de me dire quand les 15 minutes sont passées. Merci.

16:14Voilà. Donc, imaginons que je m'intéresse à la question du diamant. Vous voyez, j'ai mis Open

16:20Time and Away, Domain, Port d'Access, Retirement, etc. Puis également en français à la fin. Donc,

16:26il donne 597 résultats inclus les PDF. Je peux évidemment toujours les enregistrer, etc. Mais

16:32également circuler. Par exemple, m'intéresser à un texte donné ou à un auteur donné. Voilà,

16:40les auteurs ici sont soulignés lorsqu'ils sont associés à un ORCHID. On a l'ensemble de leurs

16:49textes et on peut également suivre les auteurs au sens ici double de leur nouvelle production et de

16:56leur nouvelle citation à l'intérieur de Matilda. Mais on peut également suivre un texte. Disons que

17:06je prends les textes les plus pertinents sur cette question qui, comme par hasard, est un texte

17:10co-signé par moi-même. Donc, on va prendre celui-là. On va dire le texte de Yann Eric. Je

17:18peux également le suivre et décider de regarder s'il a des nouvelles citations. Ici, vous voyez

17:29toujours ce petit logo Fluid Access, s'abonner aux œuvres, citant celle-ci. Et vous trouvez en bas

17:39à la fois toutes les références qui sont présentes, celles qui sont à l'intérieur de Matilda et celles

17:44qui sont à l'extérieur pour le moment. Et ici, les textes qui le citent. Et donc, vous pouvez

17:51étudier ce qui est un classique, on va dire transmis par voie négotique, des textes centraux

17:58pour votre question et suivre les nouvelles citations de ce texte central qui sont censées

18:03être des textes qui eux-mêmes s'intéressent à la question sur laquelle vous recherchez de nouveaux

18:10éléments. Donc, je l'ai dit, cette page de recherche, si on a circulé, on a vu les pages

18:16auteurs, on a compris la mienne ici. Vous pouvez toujours circuler à l'intérieur sans aucun problème,

18:23passer d'une page auteur à une page œuvre, créer un Fluid Access, revenir sur une recherche. Enfin,

18:30tous les éléments clics câbles vous permettent de circuler à l'intérieur de l'application,

18:35sachant que l'idée, ce n'est pas nécessairement d'y passer un temps fou, mais de définir une

18:40série d'éléments, de sauvegarder des textes que vous souhaitez ensuite lire, plutôt que de tourner

18:49à l'intérieur de Matilda. Voilà un peu la présentation, on va dire, de manière très simple,

18:56avec deux limites importantes. La première, c'est que nos sources sont citées par 75 œuvres depuis

19:182019. Donc, Matilda n'est complète sur les sources que depuis le 1er janvier 2019. Voilà,

19:25donc si vous regardez les textes, puisqu'il y a quelques millions de textes qui sont antérieurs,

19:30pour des raisons techniques sur lesquelles je ne reviens pas, c'est la première limite. Et la

19:35deuxième limite, je l'ai dit, sont les sources qu'on a indiquées. Je vais revenir maintenant à la

19:42présentation qui note. Ces sources, évidemment, sont susceptibles, non seulement d'être complétées,

19:48mais d'être rejointes par de nouvelles sources qui obéissent au même principe,

19:53c'est-à-dire la question de l'ouverture. Donc, dernière partie de cette présentation.

20:00Voilà, nous étions là. Alors, aujourd'hui, qu'est-ce qu'on peut dire à partir de la V3 ? Juste

20:17un élément de comparaison avec le Workscopus. Là, je parle bien des fonctions recherche. Les

20:25usagers qui sont conçus sont plutôt le chercheur de base, le militant sur une question, le patient

20:33intéressé par une maladie rare, tout ce que vous pouvez imaginer, et pas le scientomètre ou

20:37l'institution. A priori, mais c'est comme dans toute l'histoire des outils, il peut y avoir de

20:43nouvelles publiques et de nouvelles fonctionnalités, même si ce n'était pas prévu. Là, c'est

20:48simplement un rappel. En termes de couverture, on est bien meilleur que le Works et on est déjà

20:53meilleur que Scopus. En termes de couverture de citations, c'est un peu la même situation. Même

21:00si ça va changer, je n'ai pas voulu nous mettre au-dessus de Scopus dans l'état actuel, puisque

21:04les tests qu'on a effectués, on va dire qu'on est plutôt au même niveau pour le moment. En termes

21:09d'ouverture, ça va sans dire. On a un système qui est déjà très ouvert, mais pas complètement. Les

21:15API ne sont pas ouvertes, le code lui-même de la plateforme ne sont pas disponibles. Et un point

21:24sur lequel j'aime insister, en termes de fraîcheur, c'est-à-dire l'un des usages centraux qu'on

21:32conçoit, c'est celui où un chercheur ou une chercheuse veut les nouveaux textes. Il connaît

21:39son domaine, il connaît la littérature, il ne veut pas qu'on lui ressorte les milliers de textes

21:43qui existent. Il veut savoir ce qui est sorti depuis trois jours sur cet élément-là, et de

21:48manière simple et avec le moins de bruit possible. Le WOS est extrêmement mauvais, tout le monde le

21:54sait, ça met des mois à intégrer. Scopus est un peu meilleur, ça dépend. Nous, on garantit que deux

22:02jours, trois jours après la source, les éléments sont effectivement présents. Si vous avez des

22:07alertes comme ce qu'on a vu sur le flux Zotero, évidemment, vous pouvez y accéder. Et y accéder,

22:15ça veut dire sur le flux Zotero, y compris s'il y a un PDF, le PDF est capturé et vous n'avez plus

22:19qu'à le déplacer sur une de vos boîtes Zotero depuis le flux. Donc, le vrai concurrent, c'est

22:26Google Scholar, en termes d'usage. Google Scholar a très clairement une couverture, sans parler de

22:33la question de l'historique, beaucoup plus élevée, mais j'ai mis trois plus et un moins, mais qui est

22:38critiquée pour sa couverture trop élevée ou pas discriminative. Et on le sait aujourd'hui, il y a,

22:44à cause de l'usage de Google Scholar comme système, on va dire base d'évaluation, il y a des

22:51manipulations qui sont effectuées pour obtenir plus de citations et introduire des textes,

22:57on va dire fantômes ou plus ou moins produits industriellement dans la base Scholar.

23:03En termes de couverture de citations, donc, on a fait un test, on est en dessous. Alors,

23:10qu'est-ce que ça veut dire en dessous ? On a pris 50 textes publiés en 2019 qui avaient 100

23:14citations dans Matilda. Combien il y en a dans Google Scholar ? La réponse, c'est 50% d'entre

23:21100 et 125 textes et encore un tiers supplémentaire entre 100 et 150. Sachant que Google, évidemment,

23:28a toute une série d'accords avec les éditeurs, etc. Le but, c'est d'améliorer, mais j'y viens

23:34dans un instant. En termes d'ouverture, on connaît les limites de Google Scholar. Sur Matilda,

23:38on est quand même beaucoup plus ouvert et on est au même niveau de fraîcheur, c'est-à-dire les

23:43textes apparaissent en même temps dans Google Scholar, les nouveaux liens, etc. entre Google

23:49Scholar et Matilda. Si on regarde de manière un peu plus fine, sur Google Scholar, il y a une

23:56limitation de la recherche à 256 caractères. Sur Matilda, il n'y en a aucune. Évidemment,

24:01si vous avez 50 OR et END, ça va mettre un peu plus de temps à répondre simplement.

24:06L'exportation est très limitée. Dans notre cas, on a un texte massif. Voilà,

24:14ça dépend en fait de votre patience, surtout. Les alertes fonctionnent sur deux systèmes

24:18différents. Sur Google Scholar, c'est par courriel. Chez nous, c'est en flux RSS,

24:23qui est évidemment plus léger et qui évite tout l'aspect, on va dire, données personnelles. Voilà,

24:30et qui est plus facile, évidemment, à partager qu'un courriel. Vous ne pouvez pas faire une

24:35alerte Google Scholar à 12 adresses en même temps. Enfin, dans Google Scholar, comme vous le savez,

24:41il y a une curation possible par les auteurs via leur page d'auteur, etc., qui est locale,

24:47qui n'a pas de modification de l'ensemble de la base. Et chez nous, pour le moment,

24:50il n'y a pas de curation. Quelles sont les perspectives à court terme ? J'ai déjà

24:57évoqué des nouvelles fonctionnalités. Donc, on a de l'ajout de nouvelles sources. Donc,

25:03AL est à venir. On a l'ajout de nouveaux liens référentiels via Grobill, c'est-à-dire nos 6,5

25:09millions de PDF déjà présents. En fait, on est en train de récupérer la partie référentielle et on

25:14va donc injecter les nouveaux liens que trouve Grobill entre un texte et les textes qu'il cite

25:20dans l'ensemble du graphe, avec tous les effets, évidemment, qui est sur le subit texte et sur la

25:27circulation d'un texte citant à un texte cité. Troisième élément important, on va réviser les

25:33sources. On a par exemple découvert qu'il y avait un nombre non négligeable de DOI aujourd'hui

25:37utilisés par les éditeurs pour des figures, par exemple, des graphes ou des tableaux. Donc,

25:42il y a un lien DOI spécifique qui n'a pas d'intérêt parce qu'en fait, c'est jamais un lien citant.

25:48Voilà. Donc, on veut conserver notre orientation publication. Les dates, je ne rentre pas, je peux

25:54répondre aux questions, mais en fait, il faut comprendre deux éléments. Le premier, c'est que

25:58très souvent dans les sources, un texte donné a déjà plusieurs dates, y compris un texte publié,

26:03entre le online first, le issue, voire l'année toute seule, etc. Mais en plus ici, une œuvre dans

26:12Matilda, c'est éventuellement le lien entre quatre ou cinq textes. Et donc, vous auriez la date qui

26:18est présente dans A, la date de publication, la date du preprint, etc. Donc, on doit travailler

26:22vraiment cette question. Toujours à court terme, un point essentiel pour nous, y compris dans la

26:29visibilité de Matilda, nous sommes en discussion avec Open Citations pour que Matilda devienne

26:36une source d'Open Citations. Non pas sur les autres sources, on ne va pas remettre, évidemment,

26:41les liens qui sont déjà présents dans le Crossref, mais tous ces nouveaux liens dont je vous ai

26:45parlé dans Gros Bide. Et donc, Matilda deviendrait une nouvelle source d'Open Citations avec, évidemment,

26:52la légitimité, la crédibilité associées. Autre élément, je suis sur le dossier, en fait, pour

27:01que Matilda soit dans InfraFinder, qui est développé par Investing Open Infrastructure, là encore,

27:06pour donner de la visibilité. Puisque ce que je n'ai pas dit, d'un certain point de vue,

27:10vous êtes le premier. Ici, là, c'est le premier endroit où je passe d'une publicité très limitée

27:16depuis septembre 2023 à une publicité massive, puisque nous avons résolu tout un tas de questions,

27:22de problèmes liés aux graphos, et que nous estimons qu'en fait, on a un dispositif, une

27:28plateforme suffisamment mature pour, on va dire, plus attirer et garder les utilisateurs que de

27:34les dégoûter parce qu'ils trouvent que, vraiment, on ne trouve rien, ou qu'il y a trop de doublons,

27:38ou qu'il y a d'énormes problèmes. Les perspectives à moyen terme. Donc, la différence entre le court

27:46terme et le moyen terme, c'est que le court terme, c'est financé, c'est en train d'être fait,

27:49le moyen terme, ça ne l'est pas. Donc, l'historique des sources, on s'est arrêté à 2019 pour des

27:54raisons, en fait, au départ de Proof of Concept, mais il n'y a aucune raison qu'on ne prenne pas

27:58les historiques et ça ne pose aucun problème, si ce n'est une question de place, de temps de

28:02traitement de RAM, etc. On compte faciliter la production de connaissances sur les données

28:10d'usage. Moi, je verrais bien une thèse ou un post-doc sur ces questions puisque nous avons

28:17toutes les données d'usage en précisant qu'aucun utilisateur n'est tracé. L'IP unique est

28:24transformé en un nombre sur lequel on ne peut pas remonter à l'IP et ce qui nous intéresse, c'est

28:28beaucoup moins le parcours des usagers que les éléments cumulés. On a aujourd'hui, à cause du

28:35travail fait de SEO, c'est-à-dire si vous tapez multité à recherche, multité à science, etc.,

28:40on est en tête de liste. On a entre 50 et 300 usagers unis de jour qui arrivent sans qu'on

28:50n'ait fait aucune forme de publicité, même si d'autres, en particulier chez les documentalistes,

28:56en ont déjà fait, voire ont assuré des formations. C'est construire des communautés d'usagers avec

29:03l'idée qu'ils puissent nous indiquer quelles sont les attentes, qu'est-ce qui ne va pas,

29:10quelles fonctionnalités il faut développer et aller vers la pérennité institutionnelle et

29:16financière de la plateforme. L'idée, c'est que dans trois ans, je passe sous un bus marseillais

29:21qui est tellement mal financé que ses freins lâchent, Matilda existe toujours et continue

29:30à exister. Et donc, que coûte Matilda ? Avant-dernière slide, un point important,

29:38qu'est-ce qui est financé ? L'hébergement qui aujourd'hui, depuis le début, est assuré par

29:46Oumanoum et nous sommes contraints par les limites d'Oumanoum. À la fois, on voit bien

29:51qu'on est petit et qu'on est gros en même temps. Le développement qui est assuré par un prestataire,

29:56donc Foxcube. La maintenance qui est assurée par le même prestataire. Et enfin, l'administration,

30:03la direction, la recherche de financement, celle-ci ici, et en pratique, c'est moi.

30:08Alors, en termes monétaires et en termes de soutien, qu'est-ce que ça veut dire ? Si demain,

30:15ou aujourd'hui, vous voulez soutenir Matilda, quelles sont les sommes dont on parle ?

30:20Alors, l'AV2 a été développé avec un contrat ANR et nous avons dépensé 90 000 euros pour

30:28développer l'AV2, arriver jusqu'au Proof of Concept et aller à ce que vous avez vu en septembre 2023.

30:35L'AV3, ce n'est pas 90, je ne l'ai pas mis à jour, c'est 140 000 euros développés par

30:45une subvention du CNRS obtenue en 2023. Et donc, les développements-là qui ont eu lieu et ce que

30:52j'ai marqué à court terme sont payés par ces 140 000 euros. L'AV4, c'est entre 100 et 200

30:58kilos euros, suivant ce qu'on fait à l'intérieur. Et l'idée, c'est de multiplier maintenant les

31:06financeurs, à la fois directement par des liens, mais également d'aller sans doute en 2025 à

31:14SCOSS et de demander le soutien de SCOSS pour obtenir des financements à l'échelle internationale,

31:20mais aussi d'aller voir un certain nombre de fondations. On reste sur des montants qui sont

31:24limités. Et point très important, pour moi, souvent ces infrastructures, on le sait,

31:30elles sont payées à coups de projets et le problème, c'est que plus elles grossissent,

31:33plus elles sont utiles, plus elles coûtent cher. Je pense, je fais le pari que ce n'est pas du tout

31:41le cas de Mathilda. C'est-à-dire, vous voyez ce qui se passe sur le scolaire depuis 10 ans,

31:44on a extrêmement peu de développement, on a de la maintenance qui coûte cher, mais qui ne coûte

31:50pas si cher que ça. Et donc, au-delà des phases de développement, on devrait avoir un coût total

31:55entre 100 et 200 000 euros et potentiellement des millions d'usagers. Et donc, ça me semble

32:03largement finançable et ces coûts sont des coûts que j'ai précisé, d'hébergement, de maintenance,

32:07etc. Donc, potentiellement, on a une infrastructure « sans personnel », sans personnel directement

32:13attaché, directement visible, contrairement à d'autres infrastructures qui sont aussi importantes,

32:17voire plus importantes évidemment, mais où plus ça grossit, plus les coûts associés,

32:22notamment les coûts humains, sont importants. Voilà, je vous remercie beaucoup et j'espère

32:28que je vais être en mesure de répondre à toutes vos questions. Je vois qu'il y en a déjà 24.

32:37Merci beaucoup. Sandrine, je te laisse. Je vais essayer, s'il n'y a pas trop de bruit de travaux

32:45dans mon bureau, de répartir un petit peu les questions. Merci beaucoup Didier. Nous avons eu

32:50beaucoup, beaucoup de questions. Je ne sais pas si tu auras le temps de répondre à toutes les

32:54questions. Si tu peux m'exporter en fait le chat, parce que j'essaierai à la limite de faire un

33:02fichier qui sera peut-être attaché avec l'enregistrement sur la page que vous êtes dédié

33:06avec des réponses précises, des liens, etc. C'est ce que j'allais proposer. Cependant,

33:12il y a quand même des choses qui se rejoignent et il y a des choses auxquelles tu as déjà répondu.

33:16Par exemple, les nouvelles sources complémentaires comme HAL va venir, tu m'as dit. On a des

33:23questions autour d'EASTEC, des choses comme ça. Est-il envisagé d'ajouter EASTEC ? Est-ce que HAL

33:32sera ajouté en source complémentaire ? Et puis des questions très, très précises sur les

33:38disciplines. Sont-elles toutes couvertes ou de façon équilibrée, etc. On a des questions très

33:44spécifiques aussi sur les outils de recherche. Mais surtout, je pense que vu le temps qui nous

33:50interpartit, ce qui serait bien, ce serait, on va travailler sur ces questions avec toi,

33:55mais ce serait bien de voir un petit peu la connexion avec, peut-être que tu y as répondu,

34:01avec Isidore. Google Scholar, tu as déjà répondu. Mais surtout, on a énormément de questions

34:09autour d'OpenAlex et peut-être que tu as besoin des dix minutes supplémentaires autour de cela.

34:13Ça vous va ? Alors, merci beaucoup. Je regarde un peu tout. Je vais répondre juste à des petites

34:18questions techniques. Alors, les auteurs, c'est sur une base, il faut qu'il y ait un orchide pour

34:22que ça soit rapproché, mais c'est sur nom-prénom et clairement, évidemment, comme à peu près tous

34:28les outils existants, on a des homonymes qui se retrouvent ensemble. Et la seule solution,

34:34en fait, à terme, c'est clairement la curation par des humains et c'est notamment ces humains-là

34:39directement concernés. Sur les disciplines et la répartition, nous sommes dépendants des sources.

34:47Donc, il est clair qu'archive, on voit quelles disciplines, je veux dire mathématiques,

34:51informatiques, physique des énergies, etc. Évidemment, il y a beaucoup moins de SHS.

34:58La logique d'inclusion de HAL, c'est un premier pas. C'est l'idée de dire, en fait, au départ,

35:05on cherchait des grandes sources avec du matériel frais, préprint, publication. Voilà,

35:11donc évidemment, Crossref est ici au centre, mais ce n'est pas la seule. Évidemment,

35:15on veut inclure DataSite pour la partie publication, mais on se rend bien compte

35:18qu'il y a des tas de textes qui échappent, si je vous dire, à ce premier filtre parce qu'en fait,

35:22les éditeurs ne sont pas sur Crossref, enfin, pour des tas de raisons. Il n'existe pas de

35:27version électronique publiée officiellement, etc. Et donc, pour nous, les archives ouvertes sont un

35:32point essentiel, entre guillemets, de rattrapage. Voilà, d'ouverture de la couverture et de

35:37rattrapage d'un océan de publications qui échappent, on va dire, à un système très

35:42normalisé, pas simplement dominé par les éditeurs commerciaux, mais qui demande tout un tas de choses

35:47de la part notamment des éditeurs. Alors, OpenAlex, en fait, c'est à la fois simple et compliqué. Nous

35:57ne faisons pas du tout la même chose qu'OpenAlex. Je ne l'ai pas redit au début. Google, quand tu

36:04as dit moteur de recherche, pour le dire vite, nous faisons un outil de découverte. Le but,

36:13c'est de permettre à des gens d'accéder aux textes les plus pertinents pour eux, pour qu'ils

36:18les lisent. Donc, ils lisent le résumé en disant, non, ça ne m'intéresse pas, etc. Donc, c'est ça

36:24l'objectif. L'objectif d'OpenAlex, il est très clair, il est défini, redéfini, c'est de remplacer

36:32les usages, on va dire, institutionnels, bibliométriques, scientométriques, assurés par,

36:39aujourd'hui, des bases commerciales comme le Web of Science ou Scopus. Nous partageons des éléments

36:45communs, c'est-à-dire le fait qu'il faut une couverture la plus large possible, le fait sur

36:49les données ouvertes, etc. Mais en fait, les outils n'ont pas les mêmes objectifs, la même

36:56audience visée, et au fur et à mesure du temps, on le voit déjà, et pas les mêmes fonctionnalités.

37:00Donc, l'une des questions qui va se poser, c'est évidemment la question de la répartition des

37:05tâches, la circulation des données, voilà, mais qui peut se passer soit par OpenCitation,

37:11soit directement avec OpenAlex, avec un autre élément, évidemment, qui est, on va dire,

37:16plus délicat, c'est la question institutionnelle. OpenAlex demeure une entreprise, même si elle

37:24éventuellement en profite, qui vend des services. Il est clair que Matilda ne vendra jamais de

37:29services. Donc, voilà, mais les objectifs sont très différents. La couverture n'est pas la même

37:36non plus, mais les objectifs sont très différents. En revanche, l'idée, c'est bien de trouver des

37:40espaces de circulation. Les moyens ne sont pas du tout les mêmes non plus. Vous avez vu les

37:44coûts de Matilda. Comme vous le savez, OpenAlex a reçu 7 millions de livres, 7,5 millions de livres,

37:51après avoir reçu, je crois, trois fois 2 millions de la Fondation Arcadia. Donc, on n'est pas non

37:57plus dans les mêmes éléments. Mais, par exemple, si… Alors, pourquoi je dis ça aussi ? Parce que

38:06les éléments d'affiliation sont centraux et hérités de Microsoft, Académie Graph et Retravaillé. Moi,

38:14d'un point de vue recherche, je ne connais personne qui dit, en tant que chercheur ou

38:18chercheuse ou usager ordinaire, ce qui m'intéresse, c'est les papiers qui sortent de la Tokyo

38:24University. Ils s'intéressent éventuellement à un labo, ils s'intéressent éventuellement à un

38:28auteur ou à une série d'auteurs, un groupe de recherche, mais pas à une institution en

38:33sens macro à l'échelle d'une université. Et donc, l'affiliation n'est pas présente pour deux

38:41raisons. La première, c'est parce qu'elle est extrêmement mal renseignée, on le sait bien. La

38:45deuxième, c'est qu'a priori, elle n'intéresse pas nos utilisateurs. Mais, rien n'empêche d'envisager

38:49que les données qui sortent d'OpenAlex, en fait, on les intègre en enrichissement sur les

38:58publications. Voilà, simplement, c'est du développement et c'est du coût. Je l'ai dit,

39:04voilà. Donc, si vos établissements souhaitent soutenir Matilda, rien de plus simple. C'est-à-dire,

39:12voilà, une somme d'argent, inversement au CNRS, ils seront bien utilisés, compris avec les

39:16contraintes du type subvention d'état, usage dans l'année, etc. Ça pose aucun problème, y compris

39:21s'il y a une demande spécifique. Je voudrais que vous rajoutiez DataSite, rajoutez DataSite dans

39:27les conditions actuelles, c'est moins de 10 000 euros. Voilà. Donc, c'est pas quelque chose qui

39:33atteint des sommes gigantesques. À quoi je peux répondre d'autre ? Oui, par rapport à… On a

39:46irrité un certain nombre de considérations clairement d'Isidore. La différence essentielle,

39:52c'est que le public, ici, est mondial et il est toute discipline. Alors, historiquement,

39:59on s'est retrouvé chez Oumanoum, et donc Oumanoum est aussi borderline par rapport à ça,

40:03puisque clairement, ce n'est pas du tout quelque chose qui est fait que pour les SHS. Mais voilà,

40:09c'était le lieu, on va dire, naturel de notre développement. À terme, on sera peut-être

40:15ailleurs, y compris parce qu'on atteindra une taille critique que pourra plus assumer Oumanoum.

40:20Voilà, l'une des choses que j'ai apprises dans le développement de Matilda, c'est qu'en fait,

40:24on a un objet qui est à la fois petit et gros. Je vais vous en donner juste un exemple. Changer

40:29de technologie de graphes, en fait, ça voulait dire mettre l'infra en pause pendant un mois.

40:36C'est-à-dire, en fait, le calcul du nouveau graphes et des éléments associés a pris plus

40:40de 30 jours, y compris avec de l'optimisation informatique. Donc là, on peut dire que c'est

40:43très gros, alors que d'autres changements ou d'autres éléments, en fait, sont beaucoup plus

40:46légers et on peut les intégrer très rapidement, d'un jour à l'autre, dans l'ensemble de

40:51l'infrastructure. Donc ça, c'est un point aussi… Voilà, c'est à la fois gros et petit. C'est pas

40:58une plateforme de publication. Les moyens demandés sont beaucoup plus légers que ceux

41:04qui existent sur d'autres, on va dire, systèmes ou infrastructures de la science ouverte.

41:07Est-ce que je peux répondre à d'autres questions ?

41:14Alors, c'est vrai que les questions sont très nombreuses. Peut-être que pour respecter le

41:21temps, on peut de toute façon toutes les noter. De manière à ce que l'élément soit associé

41:26à… Ils sont très nombreuses et très précises. Donc, c'est vrai que ce serait bien qu'on les

41:37détaille. Oui, oui. Alors, les identifiants, en fait, les identifiants sur lesquels on

41:40interroge sont ceux qui sont présents dans les sources ou dans les enregistrements,

41:43comme l'Orca dit. Donc, par exemple, le ROR, en fait, il n'est pas présent dans les sources. On

41:48ne le prend pas et donc on ne l'a pas dans l'état actuel. Mais là encore, évidemment, on a une base

41:55telle que s'il y a un alignement qui existait quelque part, le coût pour ensuite les transférer

42:01est un coût qui est limité. Et surtout, l'idée, c'est de toujours mettre à jour. C'est-à-dire que

42:08c'est le contraire d'une… Enfin, voilà, j'ai beaucoup de mal. Pour moi, ce n'est pas une base

42:14de données. Voilà, au sens où d'un jour à l'autre, ça n'est pas la même. Donc, l'idée,

42:19ce n'est pas du tout de dire à quelqu'un « voilà, tu as un dump, tu récupères ça,

42:22tu travailles dessus six mois dans ton coin ». C'est au contraire d'avoir quelque chose qui

42:26est vivant, qui est en permanence enrichi, à la fois par les routines existantes et

42:31puis toutes les fonctionnalités qu'on développe.

42:33Alors, les données de la recherche. A priori, je l'ai dit quand j'ai dit l'intégration de

42:55data site. Le mouvement est plutôt de ne pas prendre les données de la recherche. Pour des

43:07raisons de cohérence de l'infrastructure et pour d'autres questions et problèmes. Mais voilà,

43:13c'est susceptible de changer s'il y a des demandes très fortes de cette nature.

43:17Est-ce que tu as répondu à la question autour d'Isidor et Mathilda ?

43:28Oui, c'est-à-dire qu'on a bénéficié d'un certain nombre de développements d'Isidor,

43:34mais les différences énormes, c'est qu'il n'y a pas de compte utilisateur. Là,

43:40ce sera un grand choix en V4, V5 ou V6, est-ce qu'on fait des comptes utilisateurs ou pas,

43:44qui supposent plein de questions, le GDPR, des formes de sécurité informatique de nature

43:50différente, etc. Ce n'est pas limité au SHS et c'est totalement multilingue. Aujourd'hui,

43:56déjà, il y a des utilisateurs, puisque j'ai une tableau de bord, qui font des interrogations en

44:01arabe. Évidemment, j'ai utilisé DeepL pour savoir si c'était un truc sérieux ou si c'était des

44:08mots aléatoires. Non, non, c'était le genre politique de l'éducation sur les technologies

44:14informatiques. Donc, c'est la grosse différence avec Isidor, mais on a bénéficié clairement,

44:22avec Stéphane Pouillaud, des expériences antérieures d'Isidor et de ce qu'il fallait

44:28faire et de ce qu'il ne fallait pas faire, à priori. Mais après, on a fait des choix qui étaient

44:32à la fois pragmatiques, liés à nos ressources et aux difficultés de développement. C'est-à-dire

44:38que moi, j'aurais plutôt vu des courriels, mais on m'a dissuadé et on m'a dit non, en fait,

44:44il faut passer par le flux RSS qui, aujourd'hui, connaît une espèce de retour en vogue,

44:49qui a des avantages à la fois sur le partage et écologique non négligément.

44:55Il est 13h47. Peut-être, à moins que tu souhaites prendre une dernière question.

45:08Oui, je vais répondre. Le coût de la maintenance est annuel. Oui, oui, parce que la maintenance,

45:13c'est continu. Et donc là, je dois à mes développeurs-mainteneurs 30 000 euros. Voilà.

45:20Donc, il faut que je trouve, en fin 2024, 30 000 euros. Je compte sur vous, mais pas que sur vous.

45:24Je vous rassure, mais vous pouvez commencer. Voilà. Puisqu'encore une fois, le choix,

45:29pour le moment, qui est un choix à la fois volontaire et pragmatique, c'est, entre guillemets,

45:35une infrastructure sans personnel. Voilà. Vous connaissez toutes et tous les difficultés,

45:39notamment de recrutement d'informaticiens dans la fonction publique, liées aux grilles,

45:44liées à l'état du marché de l'emploi, etc. Donc, c'est le choix qui est fait dans l'état actuel,

45:50et qui va nous suivre pendant quelques années. Oui, le bittex massif, c'est prévu, mais ça pose

46:04des problèmes à la fois de calcul et d'affichage. C'est évidemment ce que je souhaitais a priori.

46:09Voilà, vous avez 5 000 résultats, vous cliquez sur 3 boutons, vous les récupérez. Mais en fait,

46:13ça pose des questions non triviales. Avant la V3, impossible. Et après la V3, on verra.

46:19Est-ce qu'on peut revenir sur le tri par date ? Alors, j'en dis juste un élément. Aujourd'hui,

46:25vous le verrez, si vous utilisez massivement Matilda. Par exemple, si vous triez par les

46:30plus récentes, vous dites « ah mais en fait, ce n'est pas la plus récente qui est là ». C'est-à-dire

46:33qu'on prend en compte beaucoup les dates de modification. Non seulement on a 30 000 à 40

46:38000 nouveaux textes par jour qui sont intégrés dans Matilda, mais en fait, on a un niveau de

46:44modification, notamment venant de Crossref, qui est sans commune mesure, qui est de plusieurs

46:48centaines de milliers, voire de deux millions de documents. Et donc, on va faire là des choix

46:54qui vont être plutôt liés à la date de création, mais qui en fait ont des conséquences non

46:58négligeables. Encore une fois, liés à la multiplicité des dates sur une même œuvre.

47:04Et donc, il va falloir faire des choix en fonction de ce qu'on pense être les choses

47:09les plus importantes par nos utilisateurs. Mais n'hésitez pas, Elodie, je répondrai à

47:17venir. Il y a sur le site un accès à un courriel, donc n'hésitez pas à poser des questions,

47:25à faire des remarques. Comme je l'ai dit, on est passé, en fait, à la fin de la semaine

47:30dernière, dans une phase où il y avait une discrétion absolue sur l'infra, et là,

47:38on passe en publicité massive. Donc, plus on discute de Matilda, y compris de manière critique,

47:42meilleur c'est pour l'infrastructure. On a bien noté, on note vraiment toutes les questions,

47:51parce que je crois qu'il y en a vraiment, vraiment beaucoup. Et c'est bien de les

47:55réorganiser pour pouvoir mieux y répondre. Voilà, sur les publics, je vais juste dire un

48:03mot. C'est qu'aujourd'hui, sur le faible public, mais encore une fois volontaire,

48:06voilà, j'étais très, très surpris. Donc, deux usages qui commencent à exister. Le premier,

48:11qui devrait être évident, mais auquel je ne pense jamais, c'est ce que j'appelle l'usage

48:13catalogue. C'est-à-dire, on rentre, en fait, un titre complet d'article, clairement, et c'est ça

48:17qu'on cherche, en fait. Et en fait, une collègue me disait, qui est là, qui est présente, que c'est

48:24sans doute l'usage le plus important de Google Scholar, en fait. C'est-à-dire, voilà, les gens

48:27veulent juste récupérer des métadonnées pour faire un trip dans leur BBO, ou juste y accéder. Et le

48:33deuxième, clairement, certaines clés me laissent à penser que c'était un public non académique qui,

48:39aussi, déjà recherchait sur Mathilda. Évidemment, ça fait partie de la science ouverte. Dernière

48:44phrase que je veux indiquer et qui est assumée. Donc, tous les textes sont nés égaux, on les

48:51prend tous, mais après, dans leur développement et leur histoire, il y a des différences. Il y a

48:55des textes qui, un jour, sont ouverts, ou du moins, dont une version est ouverte, et il y a des textes

48:59qui ne le sont jamais. Il est clair que ceux dont le développement post-adolescence passe par

49:05l'ouverture sont favorisés par le moteur. De manière mécanique, si j'ose dire, puisque si vous avez

49:11un PDF, toutes les métadonnées qui sont présentes, le résumé, etc., le fait, entre guillemets, d'attraper

49:16et les références qui sont bien notées, etc. Le fait d'attraper ce texte est beaucoup plus simple

49:20que d'un texte sur lequel vous avez l'auteur, le titre, la revue, l'année, pas de résumé et texte

49:26fermé légalement pas accessible. Donc, on assume le fait que, même si tous les textes sont nés égaux,

49:31le moteur va, on va dire, techniquement favoriser les textes les plus ouverts et les textes dont

49:38les auteurs et les éditeurs ont fait un travail spécifique, important, qui est évidemment non

49:47négligeable, dans les sources pour pouvoir être cherchables et trouvables le plus facilement

49:52possible. Merci beaucoup Didier. Christelle, je te laisse la parole pour la conclusion. Merci beaucoup

50:04de votre intervention qui, je pense, a éclairé de nombreux collègues parmi nous et aussi de

50:11votre disponibilité et avoir répondu très rapidement à notre invitation. On est vraiment

50:15très content de pouvoir partager autour de Mathilda aujourd'hui. Donc, pour les détails

50:20techniques, Aurélie vous a dit en introduction que cette session de formation et de présentation

50:27était enregistrée, donc elle sera mise à disposition sur le site de Coupra et on vous

50:33enverra également donc une synthèse des questions et leurs réponses sur les listes de diffusion que

50:41nous avons utilisées pour vous communiquer l'annonce de cette présentation de Mathilda.

50:47Merci encore Didier et merci à tous. Merci, bon après-midi à toutes et tous. Merci également.

50:55Vous restez en ligne juste pour qu'on voit comment on fait pour les questions ? Merci.

Recommandée

48:48

À suivre

Webinaire enquête APC mai 2024

Couperin