Matilda, outil bibliographique et bibliométrique

  • il y a 3 mois
Didier Torny, directeur scientifique de la plateforme Matilda et directeur de recherche au CSI-i3 (CNRS, Mines Paris-PSL), présente ses principes de fonctionnement et d'utilisation et revient sur la place de Matilda dans l'écosystème de la science ouverte. L'objectif de Matilda est en effet de faire en sorte que les données de références et de citations soient désormais aussi utilisables que les textes et jeux de données de la recherche en accès ouvert, et de permettre l'intervention des utilisateurs comme enrichisseurs des données bibliométriques, dans une approche résolument tournée vers les besoins documentaires des chercheurs.
Transcript
00:00Bonjour à toutes et tous, nous allons donc pouvoir commencer, vous êtes déjà très
00:14nombreux.
00:15Merci d'avoir répondu présent à l'invitation du groupe Interopérabilité et Données du
00:21GTS au Couperin.
00:22Le webinaire aujourd'hui est consacré à Mathilda, un moteur de recherche académique
00:27qui a été conçu comme une alternative ouverte à des outils comme Google Scholar et dont
00:32le développement est coordonné depuis 2019 par notre invité Didier Torny.
00:37Didier, merci d'avoir accepté de nous présenter Mathilda aujourd'hui, vous êtes directeur
00:43de recherche au CSI, le centre de sociologie de l'innovation au sein de l'UMR iCube,
00:50qui est une UMR des Mines Paris de PSL et du CNRS, vous êtes sociologue, vous êtes
00:57notamment saisie de la question de l'évaluation de la recherche et des modèles de publication,
01:01d'accords transformants, de peer reviewing en contexte de sciences ouvertes, vous menez
01:06également des recherches en sociologie du risque, en sociologie de la gestion sanitaire,
01:11vous êtes déléguée scientifique à la direction des données ouvertes de la recherche
01:14au CNRS, vous êtes membre du comité international d'opénicitation, vous avez par ailleurs
01:21été copilote du groupe d'évaluation du COSO et donc vous êtes aujourd'hui ici
01:26pour nous présenter Mathilda dont la V3 vient juste d'être mise en production.
01:30Alors juste avant de vous laisser la parole, un petit point rapide sur le déroulement
01:35du webinaire, après votre présentation, on a prévu un petit temps d'échange de
01:3915 minutes environ, donc si des personnes ont des questions, elles peuvent les poser
01:43directement dans le chat pour que Didier puisse en prendre connaissance et y répondre après
01:48sa présentation et je rappelle, mais vous avez vu que c'était affiché, que le webinaire
01:53est enregistré et qu'il sera donc disponible en replay sur le site du GTSO et donc je
01:59vous laisse la parole Didier.
02:01Merci beaucoup aux organisatrices et organisateurs pour cette invitation et merci beaucoup à
02:09toutes celles et tous ceux qui sont là en ligne, je vais faire une présentation qui
02:14sera en trois temps, en cours, à peu près 25 minutes au total, je commencerai par un
02:22petit keynote qui rappellera en fait les objectifs et la manière dont le développement
02:30a eu lieu avant de faire une courte démonstration et enfin d'aller vers les perspectives.
02:36Alors je vais commencer par un petit keynote simple, ce que je demanderai aux organisatrices
02:43c'est de m'indiquer quand un quart d'heure est passé puisque j'arrêterai la démonstration
02:48en fait à ce moment-là pour garder dix minutes pour les perspectives, disons neuf
02:52minutes pour les perspectives.
02:55Alors ce qu'il faut comprendre c'est que par rapport au développement de la science
03:03ouverte de manière générale, il y a en fait un parent pauvre que j'ai identifié
03:07dès 2015-2016 qui était les données bibliographiques et les outils bibliographiques, on était
03:14dans une situation un peu paradoxale où d'un côté on rendait les textes de plus
03:18en plus ouverts, je ne parle pas ici des données et du reste, et en fait du point de vue des
03:24outils bibliographiques et de leur usage on avait toujours une domination par deux grands
03:30outils commerciaux que vous connaissez toutes et tous, donc le Web of Science et Scopus
03:35dont les degrés de fermeture sont même variables, et puis un outil commercial et non commercial
03:42on va dire, Google Scholar, puisque je vous rappelle que Google Scholar est le seul service
03:50développé par Google sur lequel il n'y a pas de traçage des données et c'est pour
03:53ça que vous pouvez aller dessus sans déclaration GDPR, et donc on était dans cette situation
04:00là où les textes devenaient de plus en plus ouverts et à côté leurs métadonnées étaient
04:08elles-mêmes pas du tout ouvertes et au contraire on avait l'utilisation d'outils fermés. Alors ces
04:16dix dernières années il y a eu quand même pas mal de briques qui sont apparues, qui étaient
04:20importantes, Open Citations sur laquelle je reviendrai, l'initiative Open Citations qui a
04:26joué un rôle central dans la libération de l'ensemble des données CROSSREF, sans cela Mathilda
04:34aurait été confrontée à d'autres obstacles lors de son développement. On a différentes choses
04:39qui existent comme Isidore, dont on a beaucoup bénéficié puisque le co-développement a eu
04:45lieu avec Oumanou, ou Open Alex, mais on peut dire de mon point de vue qu'il n'y a pas d'outils
04:51simples pour toutes et tous. Alors qu'est-ce que j'entends par outils simples et par toutes
04:56et tous ? Outils simples c'est-à-dire pour des gens comme moi qui ne savent pas écrire une ligne de code,
05:00qui ne savent pas utiliser un API, et toutes et tous au sens vraiment à la fois de public
05:07extra-académique et de public académique dans toutes les disciplines. Jusqu'à septembre dernier,
05:14dans lequel Mathilda version 2 a été rendue publique et disponible, avec des principes
05:22essentiels qu'on va continuer à retrouver ici en v3. Donc les sources sont des sources ouvertes,
05:29parfaitement utilisables et réutilisables. L'enrichissement se fait par des données
05:34ouvertes, ici principalement Orkady et Unpaywall. On a des fonctions de citation tracking,
05:41d'export vers Zotero, des liens de texte, et on a des alertes via des flux RSS.
05:49Entre la v2 et la v3, on a des nouvelles fonctionnalités. Je vais évidemment les
05:56montrer, mais c'est simplement pour les rappeler et montrer l'orientation. Donc,
05:59premier élément essentiel, j'imagine dans la culture qui est la vôtre, le moteur simple est
06:05devenu un moteur boudéen avec des end or not sans limites. Point essentiel qui est apparu après un
06:13très très long travail, nous avons changé de technologie de graph, nous sommes passés de
06:17GraphDB à Neo4j. Donc ça peut paraître comme ça très technique, mais en pratique ça signifie
06:21qu'il n'y a plus de fonction de dédoublonnage à l'intérieur. Le dédoublonnage s'effectue au
06:27moment de l'arrivée des nouveaux textes et on a des tas de choses qu'on peut faire avec le graph,
06:32qu'on ne pouvait pas faire avant, par exemple, liées en fonction du nombre de citations.
06:39Dernier élément essentiel, on a commencé à gérer des PDF légalement disponibles via
06:44Agrobid. Donc, en un mois, au mois de mars, on en a fait 6,5 millions. On travaille quand même à
06:52très grande échelle. Aujourd'hui, ce n'est pas encore rebranché, ça devrait avoir lieu entre la
06:58semaine prochaine et la semaine suivante. On va opérer tout un rattrapage avec l'idée à terme
07:03d'avoir les 25, 30, 40 millions de PDF légalement disponibles qui sont donc indexés. Elles ne sont
07:12pas présentes directement dans Matilda, mais ils sont indexés, ce qui permet de les rendre
07:19cherchables. Dernier point de cette partie, quel est l'un des principes essentiels de Matilda ?
07:28Tous les textes sont nés égaux. On va considérer qu'il n'y a pas de raison de sélectionner des
07:34textes, que ce soit sur la base de la langue, du type de texte, article, conférence, procédure,
07:38chapitre, tout ce que vous voulez, ou de la qualité des auteurs ou autres. On prend tout
07:43ce qui existe dans les sources que nous avons sélectionnées. Et donc, ça s'appelle Matilda,
07:48parce que cet article essentiel de Margaret Rossiter, qui porte sur la question de l'histoire
07:55des femmes, et notamment l'histoire des femmes en science, c'est de montrer que non seulement on a
08:00des effets, on va dire, plus tu gagnes, plus tu gagnes, mais on a des effets plus tu perds,
08:06plus tu perds, à l'intérieur même de la production scientifique, mais aussi de l'histoire
08:12de cette production scientifique, dont non seulement les femmes étaient invisibilisées
08:16ou largement minorisées pendant le processus scientifique, compris dans la signature des
08:21articles, mais également, ensuite, dans l'histoire de ce processus scientifique,
08:24on avait une deuxième couche d'invisibilisation. Or, ce qui nous intéresse ici, c'est que les
08:31outils commerciaux dont j'ai parlé, en fait, opèrent des sélections qui ne sont pas du tout
08:35des sélections sur la base de sciences, mais qui sont des sélections à la fois d'héritage
08:39technique, de choix, on va dire, centrés sur l'anglo-américain, ou de choix centrés sur
08:44certains types de production, comme les articles scientifiques. Nous, nous voulons faire le contraire,
08:49c'est-à-dire ouvrir à tous les textes qui sont, on va dire, partagés à travers des sources ouvertes.
08:57Donc, je vais changer de logiciel maintenant, je vais passer, j'espère, le plus rapidement
09:01possible à la démonstration. Voilà, je vais repartager. Hop, s'il y a un problème, n'hésitez
09:09pas, évidemment, à m'indiquer qu'il y a un problème. OK. Donc, je passe ici. Donc, j'ai
09:17pris Chrome, mais évidemment, ça fonctionne sur tous les navigateurs, type de fenêtre,
09:22c'est responsif, etc. Tout est développé en OSS. Voilà, pas par moi. Moi, je n'ai pas écrit une
09:30ligne de code. Il faut être très clair. Donc, ici, c'est la home page. Vous voyez un certain nombre
09:37d'éléments, très clair. Donc, le nombre d'œuvres, là, je vais juste rentrer sur un point technique,
09:42on va séparer les publications d'un côté, qu'on pourrait aussi appeler des versions,
09:46et d'autre part, les œuvres qui regroupent ce que le logiciel va considérer comme étant
09:53des publications similaires. Voilà, donc là, il n'y a pas 133 millions de textes,
09:59on a plutôt entre 200 et 250 millions. Mais, on va dire, le préprint, la version archivée,
10:06la version publiée, tous ces éléments peuvent être rapprochés et mis ensemble avec une logique
10:13très conservatrice, on va dire. C'est-à-dire qu'on cherche à ne pas créer des œuvres qui
10:24rassembleraient des textes qui n'ont rien à voir les uns avec les autres. Donc, ici, la recherche,
10:28c'est très simple. Donc, on tape en texte naturel avec des éléments classiques, des parenthèses,
10:35des guillemets, etc. Et on peut arriver, là, on est en direct, ce n'est pas une fausse démo,
10:42on est vraiment sur la chose. On arrive sur un autre type de page, qui est la page de résultats.
10:49Vous avez à gauche toute une série de filtres et d'éléments que je vais décrire dans un instant.
10:54Et en face, vous avez des résultats, vous voyez ici, triés par pertinence, mais on peut également
10:59trier par le plus cité, les plus récentes et les plus anciens. Vous avez le nombre de résultats
11:03ici. Et ici, un certain nombre d'éléments que je vais décrire dans un instant. Donc,
11:08je voulais simplement vous montrer que les plus cités, en fait, peuvent être très souvent
11:13décevantes. Parce qu'on est tellement habitué sur Google Scholar, en fait, à avoir les choses les
11:18plus citées en haut. Mais en fait, c'est un mélange de pertinence et de citation. Très souvent,
11:21la plus citée, en fait, va être quelque chose qui est marginal du point de vue du sujet. Ce qui va
11:28être éventuellement plus intéressant, c'est les plus récentes. Ce qui me permet d'insister tout
11:33de suite sur le fait que Matilda fonctionne en continu et tous les jours. Et tous les jours,
11:39et avec un décalage d'environ deux jours sur les sources. Donc, si vous voyez, c'est un texte qui
11:45est du 16 mai 2024 et qui est déjà intégré dans Matilda. Je vais simplement l'ouvrir ici pour vous
11:55dire ensuite, voilà, si vous êtes intéressé, ce à quoi vous avez accès. Vous avez accès aux sources.
12:01Encore une fois, là, c'est uniquement si ça vous intéresse. Aux sources, à la manière dont c'est
12:05traité, etc. Et ici, vous avez accès au DOI. Donc, si on clique dessus, on ouvre un nouvel anglais et
12:12on va sur la page du DOI. Et on a le PDF qu'on peut ici télécharger, le bit text. Mais si je
12:20reviens ici, vous pouvez sélectionner l'ensemble des textes qui vous intéressent. Voilà. Et on
12:30peut descendre de manière continue. Et ensuite, par exemple, tous les sélectionner. Alors,
12:35uniquement ceux que vous avez vus, si j'ose dire. Voilà, vous n'avez pas automatiquement les 5000
12:41qui vont descendre. Donc, vous pouvez les télécharger, encore une fois, par un fichier
12:47bit text. Mais vous pouvez faire autre chose sur laquelle on va revenir dans un instant,
12:54qui est vous abonner à ce flux. On va créer un flux RSS, qui est un flux RSS parfaitement stable,
13:01comme on est en source ouverte, parfaitement disponible, exposable, réutilisable, partageable,
13:07sans aucune limite. Et qui va vous donner les résultats classés en fonction des plus récents.
13:14Et dans le cas du flux RSS, en fait, les 100 derniers résultats. Voilà, je vais aller tout
13:19de suite sur Zotero. Mais avant, je voulais vous indiquer ici les filtres. Donc, vous pouvez filtrer
13:24par différents éléments. Ici, les choses qui sont importantes en bas. Vous voyez que la recherche est
13:30inclue dans les PDF et inclue dans les références. Vous allez voir le résultat être modifié. Si
13:36j'enlève les références, voyez, on est passé de 5349 à 5143. Et si j'enlève les PDF, on passe à
13:43415. Donc, on a un rapport de 1 à 10, ce qui est assez classique sur ce type de recherche. Et donc,
13:49ça dépend évidemment de ce que vous recherchez et comment vous venez le rechercher. Donc, j'ai
13:55parlé tout de suite du flux RSS. Le flux RSS ici, il y a 4 clics à faire. Vous pouvez le copier. Et
14:03par exemple, en disposer sous Zotero. Donc ici, j'ouvre Zotero. J'ouvre un nouveau flux. Voilà,
14:13je copie l'URL. Et je l'appelle Article Processing Charges Zotero. Le nom est évidemment
14:22parfaitement libre. Et je vais voir afficher les derniers éléments qui vont être présents,
14:29qui sont eux-mêmes copiables, récupérables, dans tous les sens. Ensuite, donc ça c'est pour les
14:43filtres. Les dates, je ne reviens pas. Je répondrai aux questions sur les dates. On est
14:46dans un domaine qui est assez compliqué. On peut toujours circuler à l'intérieur,
14:51puisqu'évidemment, on ne sait rien de la manière dont les chercheurs utilisent des outils de
14:57recherche. On ne sait vraiment rien. Il n'y a aucune littérature. Donc, on conçoit en fait,
15:01nous, des fonctions et des circulations en fonction d'un certain nombre d'hypothèses. Je l'ai dit,
15:07vous pouvez rentrer à l'intérieur, voir s'il y a un résumé, etc. Vous voyez ici les highlights
15:12qui sont disponibles. On a un extrait des métadonnées du résumé. Mais si on descend
15:18plus bas, vous avez accès également à des éléments qui proviennent de PDF. Je cherche un
15:24exemple. Je vais en trouver, puisque comme je l'ai dit, les PDF n'ont pas été pris les deux derniers
15:29mois. Je vais finir par en trouver un. Je n'ai pas sélectionné recherche dans la PDF, donc c'est
15:34normal qu'ils ne trouvent pas dans les PDF. Ici, voilà. Donc là, vous avez quelque chose qui est
15:42en fait extrait du PDF. Donc, il n'y avait pas peut-être d'éléments dans les métadonnées et
15:48vous avez un highlight au sens où ce sont les éléments qui sont ceux que vous recherchez.
15:53J'ai parlé des recherches complexes. J'ai ici préparé une petite recherche comme exemple.
16:03Avec simplement des O. N'oubliez pas de me dire quand les 15 minutes sont passées. Merci.
16:14Voilà. Donc, imaginons que je m'intéresse à la question du diamant. Vous voyez, j'ai mis Open
16:20Time and Away, Domain, Port d'Access, Retirement, etc. Puis également en français à la fin. Donc,
16:26il donne 597 résultats inclus les PDF. Je peux évidemment toujours les enregistrer, etc. Mais
16:32également circuler. Par exemple, m'intéresser à un texte donné ou à un auteur donné. Voilà,
16:40les auteurs ici sont soulignés lorsqu'ils sont associés à un ORCHID. On a l'ensemble de leurs
16:49textes et on peut également suivre les auteurs au sens ici double de leur nouvelle production et de
16:56leur nouvelle citation à l'intérieur de Matilda. Mais on peut également suivre un texte. Disons que
17:06je prends les textes les plus pertinents sur cette question qui, comme par hasard, est un texte
17:10co-signé par moi-même. Donc, on va prendre celui-là. On va dire le texte de Yann Eric. Je
17:18peux également le suivre et décider de regarder s'il a des nouvelles citations. Ici, vous voyez
17:29toujours ce petit logo Fluid Access, s'abonner aux œuvres, citant celle-ci. Et vous trouvez en bas
17:39à la fois toutes les références qui sont présentes, celles qui sont à l'intérieur de Matilda et celles
17:44qui sont à l'extérieur pour le moment. Et ici, les textes qui le citent. Et donc, vous pouvez
17:51étudier ce qui est un classique, on va dire transmis par voie négotique, des textes centraux
17:58pour votre question et suivre les nouvelles citations de ce texte central qui sont censées
18:03être des textes qui eux-mêmes s'intéressent à la question sur laquelle vous recherchez de nouveaux
18:10éléments. Donc, je l'ai dit, cette page de recherche, si on a circulé, on a vu les pages
18:16auteurs, on a compris la mienne ici. Vous pouvez toujours circuler à l'intérieur sans aucun problème,
18:23passer d'une page auteur à une page œuvre, créer un Fluid Access, revenir sur une recherche. Enfin,
18:30tous les éléments clics câbles vous permettent de circuler à l'intérieur de l'application,
18:35sachant que l'idée, ce n'est pas nécessairement d'y passer un temps fou, mais de définir une
18:40série d'éléments, de sauvegarder des textes que vous souhaitez ensuite lire, plutôt que de tourner
18:49à l'intérieur de Matilda. Voilà un peu la présentation, on va dire, de manière très simple,
18:56avec deux limites importantes. La première, c'est que nos sources sont citées par 75 œuvres depuis
19:182019. Donc, Matilda n'est complète sur les sources que depuis le 1er janvier 2019. Voilà,
19:25donc si vous regardez les textes, puisqu'il y a quelques millions de textes qui sont antérieurs,
19:30pour des raisons techniques sur lesquelles je ne reviens pas, c'est la première limite. Et la
19:35deuxième limite, je l'ai dit, sont les sources qu'on a indiquées. Je vais revenir maintenant à la
19:42présentation qui note. Ces sources, évidemment, sont susceptibles, non seulement d'être complétées,
19:48mais d'être rejointes par de nouvelles sources qui obéissent au même principe,
19:53c'est-à-dire la question de l'ouverture. Donc, dernière partie de cette présentation.
20:00Voilà, nous étions là. Alors, aujourd'hui, qu'est-ce qu'on peut dire à partir de la V3 ? Juste
20:17un élément de comparaison avec le Workscopus. Là, je parle bien des fonctions recherche. Les
20:25usagers qui sont conçus sont plutôt le chercheur de base, le militant sur une question, le patient
20:33intéressé par une maladie rare, tout ce que vous pouvez imaginer, et pas le scientomètre ou
20:37l'institution. A priori, mais c'est comme dans toute l'histoire des outils, il peut y avoir de
20:43nouvelles publiques et de nouvelles fonctionnalités, même si ce n'était pas prévu. Là, c'est
20:48simplement un rappel. En termes de couverture, on est bien meilleur que le Works et on est déjà
20:53meilleur que Scopus. En termes de couverture de citations, c'est un peu la même situation. Même
21:00si ça va changer, je n'ai pas voulu nous mettre au-dessus de Scopus dans l'état actuel, puisque
21:04les tests qu'on a effectués, on va dire qu'on est plutôt au même niveau pour le moment. En termes
21:09d'ouverture, ça va sans dire. On a un système qui est déjà très ouvert, mais pas complètement. Les
21:15API ne sont pas ouvertes, le code lui-même de la plateforme ne sont pas disponibles. Et un point
21:24sur lequel j'aime insister, en termes de fraîcheur, c'est-à-dire l'un des usages centraux qu'on
21:32conçoit, c'est celui où un chercheur ou une chercheuse veut les nouveaux textes. Il connaît
21:39son domaine, il connaît la littérature, il ne veut pas qu'on lui ressorte les milliers de textes
21:43qui existent. Il veut savoir ce qui est sorti depuis trois jours sur cet élément-là, et de
21:48manière simple et avec le moins de bruit possible. Le WOS est extrêmement mauvais, tout le monde le
21:54sait, ça met des mois à intégrer. Scopus est un peu meilleur, ça dépend. Nous, on garantit que deux
22:02jours, trois jours après la source, les éléments sont effectivement présents. Si vous avez des
22:07alertes comme ce qu'on a vu sur le flux Zotero, évidemment, vous pouvez y accéder. Et y accéder,
22:15ça veut dire sur le flux Zotero, y compris s'il y a un PDF, le PDF est capturé et vous n'avez plus
22:19qu'à le déplacer sur une de vos boîtes Zotero depuis le flux. Donc, le vrai concurrent, c'est
22:26Google Scholar, en termes d'usage. Google Scholar a très clairement une couverture, sans parler de
22:33la question de l'historique, beaucoup plus élevée, mais j'ai mis trois plus et un moins, mais qui est
22:38critiquée pour sa couverture trop élevée ou pas discriminative. Et on le sait aujourd'hui, il y a,
22:44à cause de l'usage de Google Scholar comme système, on va dire base d'évaluation, il y a des
22:51manipulations qui sont effectuées pour obtenir plus de citations et introduire des textes,
22:57on va dire fantômes ou plus ou moins produits industriellement dans la base Scholar.
23:03En termes de couverture de citations, donc, on a fait un test, on est en dessous. Alors,
23:10qu'est-ce que ça veut dire en dessous ? On a pris 50 textes publiés en 2019 qui avaient 100
23:14citations dans Matilda. Combien il y en a dans Google Scholar ? La réponse, c'est 50% d'entre
23:21100 et 125 textes et encore un tiers supplémentaire entre 100 et 150. Sachant que Google, évidemment,
23:28a toute une série d'accords avec les éditeurs, etc. Le but, c'est d'améliorer, mais j'y viens
23:34dans un instant. En termes d'ouverture, on connaît les limites de Google Scholar. Sur Matilda,
23:38on est quand même beaucoup plus ouvert et on est au même niveau de fraîcheur, c'est-à-dire les
23:43textes apparaissent en même temps dans Google Scholar, les nouveaux liens, etc. entre Google
23:49Scholar et Matilda. Si on regarde de manière un peu plus fine, sur Google Scholar, il y a une
23:56limitation de la recherche à 256 caractères. Sur Matilda, il n'y en a aucune. Évidemment,
24:01si vous avez 50 OR et END, ça va mettre un peu plus de temps à répondre simplement.
24:06L'exportation est très limitée. Dans notre cas, on a un texte massif. Voilà,
24:14ça dépend en fait de votre patience, surtout. Les alertes fonctionnent sur deux systèmes
24:18différents. Sur Google Scholar, c'est par courriel. Chez nous, c'est en flux RSS,
24:23qui est évidemment plus léger et qui évite tout l'aspect, on va dire, données personnelles. Voilà,
24:30et qui est plus facile, évidemment, à partager qu'un courriel. Vous ne pouvez pas faire une
24:35alerte Google Scholar à 12 adresses en même temps. Enfin, dans Google Scholar, comme vous le savez,
24:41il y a une curation possible par les auteurs via leur page d'auteur, etc., qui est locale,
24:47qui n'a pas de modification de l'ensemble de la base. Et chez nous, pour le moment,
24:50il n'y a pas de curation. Quelles sont les perspectives à court terme ? J'ai déjà
24:57évoqué des nouvelles fonctionnalités. Donc, on a de l'ajout de nouvelles sources. Donc,
25:03AL est à venir. On a l'ajout de nouveaux liens référentiels via Grobill, c'est-à-dire nos 6,5
25:09millions de PDF déjà présents. En fait, on est en train de récupérer la partie référentielle et on
25:14va donc injecter les nouveaux liens que trouve Grobill entre un texte et les textes qu'il cite
25:20dans l'ensemble du graphe, avec tous les effets, évidemment, qui est sur le subit texte et sur la
25:27circulation d'un texte citant à un texte cité. Troisième élément important, on va réviser les
25:33sources. On a par exemple découvert qu'il y avait un nombre non négligeable de DOI aujourd'hui
25:37utilisés par les éditeurs pour des figures, par exemple, des graphes ou des tableaux. Donc,
25:42il y a un lien DOI spécifique qui n'a pas d'intérêt parce qu'en fait, c'est jamais un lien citant.
25:48Voilà. Donc, on veut conserver notre orientation publication. Les dates, je ne rentre pas, je peux
25:54répondre aux questions, mais en fait, il faut comprendre deux éléments. Le premier, c'est que
25:58très souvent dans les sources, un texte donné a déjà plusieurs dates, y compris un texte publié,
26:03entre le online first, le issue, voire l'année toute seule, etc. Mais en plus ici, une œuvre dans
26:12Matilda, c'est éventuellement le lien entre quatre ou cinq textes. Et donc, vous auriez la date qui
26:18est présente dans A, la date de publication, la date du preprint, etc. Donc, on doit travailler
26:22vraiment cette question. Toujours à court terme, un point essentiel pour nous, y compris dans la
26:29visibilité de Matilda, nous sommes en discussion avec Open Citations pour que Matilda devienne
26:36une source d'Open Citations. Non pas sur les autres sources, on ne va pas remettre, évidemment,
26:41les liens qui sont déjà présents dans le Crossref, mais tous ces nouveaux liens dont je vous ai
26:45parlé dans Gros Bide. Et donc, Matilda deviendrait une nouvelle source d'Open Citations avec, évidemment,
26:52la légitimité, la crédibilité associées. Autre élément, je suis sur le dossier, en fait, pour
27:01que Matilda soit dans InfraFinder, qui est développé par Investing Open Infrastructure, là encore,
27:06pour donner de la visibilité. Puisque ce que je n'ai pas dit, d'un certain point de vue,
27:10vous êtes le premier. Ici, là, c'est le premier endroit où je passe d'une publicité très limitée
27:16depuis septembre 2023 à une publicité massive, puisque nous avons résolu tout un tas de questions,
27:22de problèmes liés aux graphos, et que nous estimons qu'en fait, on a un dispositif, une
27:28plateforme suffisamment mature pour, on va dire, plus attirer et garder les utilisateurs que de
27:34les dégoûter parce qu'ils trouvent que, vraiment, on ne trouve rien, ou qu'il y a trop de doublons,
27:38ou qu'il y a d'énormes problèmes. Les perspectives à moyen terme. Donc, la différence entre le court
27:46terme et le moyen terme, c'est que le court terme, c'est financé, c'est en train d'être fait,
27:49le moyen terme, ça ne l'est pas. Donc, l'historique des sources, on s'est arrêté à 2019 pour des
27:54raisons, en fait, au départ de Proof of Concept, mais il n'y a aucune raison qu'on ne prenne pas
27:58les historiques et ça ne pose aucun problème, si ce n'est une question de place, de temps de
28:02traitement de RAM, etc. On compte faciliter la production de connaissances sur les données
28:10d'usage. Moi, je verrais bien une thèse ou un post-doc sur ces questions puisque nous avons
28:17toutes les données d'usage en précisant qu'aucun utilisateur n'est tracé. L'IP unique est
28:24transformé en un nombre sur lequel on ne peut pas remonter à l'IP et ce qui nous intéresse, c'est
28:28beaucoup moins le parcours des usagers que les éléments cumulés. On a aujourd'hui, à cause du
28:35travail fait de SEO, c'est-à-dire si vous tapez multité à recherche, multité à science, etc.,
28:40on est en tête de liste. On a entre 50 et 300 usagers unis de jour qui arrivent sans qu'on
28:50n'ait fait aucune forme de publicité, même si d'autres, en particulier chez les documentalistes,
28:56en ont déjà fait, voire ont assuré des formations. C'est construire des communautés d'usagers avec
29:03l'idée qu'ils puissent nous indiquer quelles sont les attentes, qu'est-ce qui ne va pas,
29:10quelles fonctionnalités il faut développer et aller vers la pérennité institutionnelle et
29:16financière de la plateforme. L'idée, c'est que dans trois ans, je passe sous un bus marseillais
29:21qui est tellement mal financé que ses freins lâchent, Matilda existe toujours et continue
29:30à exister. Et donc, que coûte Matilda ? Avant-dernière slide, un point important,
29:38qu'est-ce qui est financé ? L'hébergement qui aujourd'hui, depuis le début, est assuré par
29:46Oumanoum et nous sommes contraints par les limites d'Oumanoum. À la fois, on voit bien
29:51qu'on est petit et qu'on est gros en même temps. Le développement qui est assuré par un prestataire,
29:56donc Foxcube. La maintenance qui est assurée par le même prestataire. Et enfin, l'administration,
30:03la direction, la recherche de financement, celle-ci ici, et en pratique, c'est moi.
30:08Alors, en termes monétaires et en termes de soutien, qu'est-ce que ça veut dire ? Si demain,
30:15ou aujourd'hui, vous voulez soutenir Matilda, quelles sont les sommes dont on parle ?
30:20Alors, l'AV2 a été développé avec un contrat ANR et nous avons dépensé 90 000 euros pour
30:28développer l'AV2, arriver jusqu'au Proof of Concept et aller à ce que vous avez vu en septembre 2023.
30:35L'AV3, ce n'est pas 90, je ne l'ai pas mis à jour, c'est 140 000 euros développés par
30:45une subvention du CNRS obtenue en 2023. Et donc, les développements-là qui ont eu lieu et ce que
30:52j'ai marqué à court terme sont payés par ces 140 000 euros. L'AV4, c'est entre 100 et 200
30:58kilos euros, suivant ce qu'on fait à l'intérieur. Et l'idée, c'est de multiplier maintenant les
31:06financeurs, à la fois directement par des liens, mais également d'aller sans doute en 2025 à
31:14SCOSS et de demander le soutien de SCOSS pour obtenir des financements à l'échelle internationale,
31:20mais aussi d'aller voir un certain nombre de fondations. On reste sur des montants qui sont
31:24limités. Et point très important, pour moi, souvent ces infrastructures, on le sait,
31:30elles sont payées à coups de projets et le problème, c'est que plus elles grossissent,
31:33plus elles sont utiles, plus elles coûtent cher. Je pense, je fais le pari que ce n'est pas du tout
31:41le cas de Mathilda. C'est-à-dire, vous voyez ce qui se passe sur le scolaire depuis 10 ans,
31:44on a extrêmement peu de développement, on a de la maintenance qui coûte cher, mais qui ne coûte
31:50pas si cher que ça. Et donc, au-delà des phases de développement, on devrait avoir un coût total
31:55entre 100 et 200 000 euros et potentiellement des millions d'usagers. Et donc, ça me semble
32:03largement finançable et ces coûts sont des coûts que j'ai précisé, d'hébergement, de maintenance,
32:07etc. Donc, potentiellement, on a une infrastructure « sans personnel », sans personnel directement
32:13attaché, directement visible, contrairement à d'autres infrastructures qui sont aussi importantes,
32:17voire plus importantes évidemment, mais où plus ça grossit, plus les coûts associés,
32:22notamment les coûts humains, sont importants. Voilà, je vous remercie beaucoup et j'espère
32:28que je vais être en mesure de répondre à toutes vos questions. Je vois qu'il y en a déjà 24.
32:37Merci beaucoup. Sandrine, je te laisse. Je vais essayer, s'il n'y a pas trop de bruit de travaux
32:45dans mon bureau, de répartir un petit peu les questions. Merci beaucoup Didier. Nous avons eu
32:50beaucoup, beaucoup de questions. Je ne sais pas si tu auras le temps de répondre à toutes les
32:54questions. Si tu peux m'exporter en fait le chat, parce que j'essaierai à la limite de faire un
33:02fichier qui sera peut-être attaché avec l'enregistrement sur la page que vous êtes dédié
33:06avec des réponses précises, des liens, etc. C'est ce que j'allais proposer. Cependant,
33:12il y a quand même des choses qui se rejoignent et il y a des choses auxquelles tu as déjà répondu.
33:16Par exemple, les nouvelles sources complémentaires comme HAL va venir, tu m'as dit. On a des
33:23questions autour d'EASTEC, des choses comme ça. Est-il envisagé d'ajouter EASTEC ? Est-ce que HAL
33:32sera ajouté en source complémentaire ? Et puis des questions très, très précises sur les
33:38disciplines. Sont-elles toutes couvertes ou de façon équilibrée, etc. On a des questions très
33:44spécifiques aussi sur les outils de recherche. Mais surtout, je pense que vu le temps qui nous
33:50interpartit, ce qui serait bien, ce serait, on va travailler sur ces questions avec toi,
33:55mais ce serait bien de voir un petit peu la connexion avec, peut-être que tu y as répondu,
34:01avec Isidore. Google Scholar, tu as déjà répondu. Mais surtout, on a énormément de questions
34:09autour d'OpenAlex et peut-être que tu as besoin des dix minutes supplémentaires autour de cela.
34:13Ça vous va ? Alors, merci beaucoup. Je regarde un peu tout. Je vais répondre juste à des petites
34:18questions techniques. Alors, les auteurs, c'est sur une base, il faut qu'il y ait un orchide pour
34:22que ça soit rapproché, mais c'est sur nom-prénom et clairement, évidemment, comme à peu près tous
34:28les outils existants, on a des homonymes qui se retrouvent ensemble. Et la seule solution,
34:34en fait, à terme, c'est clairement la curation par des humains et c'est notamment ces humains-là
34:39directement concernés. Sur les disciplines et la répartition, nous sommes dépendants des sources.
34:47Donc, il est clair qu'archive, on voit quelles disciplines, je veux dire mathématiques,
34:51informatiques, physique des énergies, etc. Évidemment, il y a beaucoup moins de SHS.
34:58La logique d'inclusion de HAL, c'est un premier pas. C'est l'idée de dire, en fait, au départ,
35:05on cherchait des grandes sources avec du matériel frais, préprint, publication. Voilà,
35:11donc évidemment, Crossref est ici au centre, mais ce n'est pas la seule. Évidemment,
35:15on veut inclure DataSite pour la partie publication, mais on se rend bien compte
35:18qu'il y a des tas de textes qui échappent, si je vous dire, à ce premier filtre parce qu'en fait,
35:22les éditeurs ne sont pas sur Crossref, enfin, pour des tas de raisons. Il n'existe pas de
35:27version électronique publiée officiellement, etc. Et donc, pour nous, les archives ouvertes sont un
35:32point essentiel, entre guillemets, de rattrapage. Voilà, d'ouverture de la couverture et de
35:37rattrapage d'un océan de publications qui échappent, on va dire, à un système très
35:42normalisé, pas simplement dominé par les éditeurs commerciaux, mais qui demande tout un tas de choses
35:47de la part notamment des éditeurs. Alors, OpenAlex, en fait, c'est à la fois simple et compliqué. Nous
35:57ne faisons pas du tout la même chose qu'OpenAlex. Je ne l'ai pas redit au début. Google, quand tu
36:04as dit moteur de recherche, pour le dire vite, nous faisons un outil de découverte. Le but,
36:13c'est de permettre à des gens d'accéder aux textes les plus pertinents pour eux, pour qu'ils
36:18les lisent. Donc, ils lisent le résumé en disant, non, ça ne m'intéresse pas, etc. Donc, c'est ça
36:24l'objectif. L'objectif d'OpenAlex, il est très clair, il est défini, redéfini, c'est de remplacer
36:32les usages, on va dire, institutionnels, bibliométriques, scientométriques, assurés par,
36:39aujourd'hui, des bases commerciales comme le Web of Science ou Scopus. Nous partageons des éléments
36:45communs, c'est-à-dire le fait qu'il faut une couverture la plus large possible, le fait sur
36:49les données ouvertes, etc. Mais en fait, les outils n'ont pas les mêmes objectifs, la même
36:56audience visée, et au fur et à mesure du temps, on le voit déjà, et pas les mêmes fonctionnalités.
37:00Donc, l'une des questions qui va se poser, c'est évidemment la question de la répartition des
37:05tâches, la circulation des données, voilà, mais qui peut se passer soit par OpenCitation,
37:11soit directement avec OpenAlex, avec un autre élément, évidemment, qui est, on va dire,
37:16plus délicat, c'est la question institutionnelle. OpenAlex demeure une entreprise, même si elle
37:24éventuellement en profite, qui vend des services. Il est clair que Matilda ne vendra jamais de
37:29services. Donc, voilà, mais les objectifs sont très différents. La couverture n'est pas la même
37:36non plus, mais les objectifs sont très différents. En revanche, l'idée, c'est bien de trouver des
37:40espaces de circulation. Les moyens ne sont pas du tout les mêmes non plus. Vous avez vu les
37:44coûts de Matilda. Comme vous le savez, OpenAlex a reçu 7 millions de livres, 7,5 millions de livres,
37:51après avoir reçu, je crois, trois fois 2 millions de la Fondation Arcadia. Donc, on n'est pas non
37:57plus dans les mêmes éléments. Mais, par exemple, si… Alors, pourquoi je dis ça aussi ? Parce que
38:06les éléments d'affiliation sont centraux et hérités de Microsoft, Académie Graph et Retravaillé. Moi,
38:14d'un point de vue recherche, je ne connais personne qui dit, en tant que chercheur ou
38:18chercheuse ou usager ordinaire, ce qui m'intéresse, c'est les papiers qui sortent de la Tokyo
38:24University. Ils s'intéressent éventuellement à un labo, ils s'intéressent éventuellement à un
38:28auteur ou à une série d'auteurs, un groupe de recherche, mais pas à une institution en
38:33sens macro à l'échelle d'une université. Et donc, l'affiliation n'est pas présente pour deux
38:41raisons. La première, c'est parce qu'elle est extrêmement mal renseignée, on le sait bien. La
38:45deuxième, c'est qu'a priori, elle n'intéresse pas nos utilisateurs. Mais, rien n'empêche d'envisager
38:49que les données qui sortent d'OpenAlex, en fait, on les intègre en enrichissement sur les
38:58publications. Voilà, simplement, c'est du développement et c'est du coût. Je l'ai dit,
39:04voilà. Donc, si vos établissements souhaitent soutenir Matilda, rien de plus simple. C'est-à-dire,
39:12voilà, une somme d'argent, inversement au CNRS, ils seront bien utilisés, compris avec les
39:16contraintes du type subvention d'état, usage dans l'année, etc. Ça pose aucun problème, y compris
39:21s'il y a une demande spécifique. Je voudrais que vous rajoutiez DataSite, rajoutez DataSite dans
39:27les conditions actuelles, c'est moins de 10 000 euros. Voilà. Donc, c'est pas quelque chose qui
39:33atteint des sommes gigantesques. À quoi je peux répondre d'autre ? Oui, par rapport à… On a
39:46irrité un certain nombre de considérations clairement d'Isidore. La différence essentielle,
39:52c'est que le public, ici, est mondial et il est toute discipline. Alors, historiquement,
39:59on s'est retrouvé chez Oumanoum, et donc Oumanoum est aussi borderline par rapport à ça,
40:03puisque clairement, ce n'est pas du tout quelque chose qui est fait que pour les SHS. Mais voilà,
40:09c'était le lieu, on va dire, naturel de notre développement. À terme, on sera peut-être
40:15ailleurs, y compris parce qu'on atteindra une taille critique que pourra plus assumer Oumanoum.
40:20Voilà, l'une des choses que j'ai apprises dans le développement de Matilda, c'est qu'en fait,
40:24on a un objet qui est à la fois petit et gros. Je vais vous en donner juste un exemple. Changer
40:29de technologie de graphes, en fait, ça voulait dire mettre l'infra en pause pendant un mois.
40:36C'est-à-dire, en fait, le calcul du nouveau graphes et des éléments associés a pris plus
40:40de 30 jours, y compris avec de l'optimisation informatique. Donc là, on peut dire que c'est
40:43très gros, alors que d'autres changements ou d'autres éléments, en fait, sont beaucoup plus
40:46légers et on peut les intégrer très rapidement, d'un jour à l'autre, dans l'ensemble de
40:51l'infrastructure. Donc ça, c'est un point aussi… Voilà, c'est à la fois gros et petit. C'est pas
40:58une plateforme de publication. Les moyens demandés sont beaucoup plus légers que ceux
41:04qui existent sur d'autres, on va dire, systèmes ou infrastructures de la science ouverte.
41:07Est-ce que je peux répondre à d'autres questions ?
41:14Alors, c'est vrai que les questions sont très nombreuses. Peut-être que pour respecter le
41:21temps, on peut de toute façon toutes les noter. De manière à ce que l'élément soit associé
41:26à… Ils sont très nombreuses et très précises. Donc, c'est vrai que ce serait bien qu'on les
41:37détaille. Oui, oui. Alors, les identifiants, en fait, les identifiants sur lesquels on
41:40interroge sont ceux qui sont présents dans les sources ou dans les enregistrements,
41:43comme l'Orca dit. Donc, par exemple, le ROR, en fait, il n'est pas présent dans les sources. On
41:48ne le prend pas et donc on ne l'a pas dans l'état actuel. Mais là encore, évidemment, on a une base
41:55telle que s'il y a un alignement qui existait quelque part, le coût pour ensuite les transférer
42:01est un coût qui est limité. Et surtout, l'idée, c'est de toujours mettre à jour. C'est-à-dire que
42:08c'est le contraire d'une… Enfin, voilà, j'ai beaucoup de mal. Pour moi, ce n'est pas une base
42:14de données. Voilà, au sens où d'un jour à l'autre, ça n'est pas la même. Donc, l'idée,
42:19ce n'est pas du tout de dire à quelqu'un « voilà, tu as un dump, tu récupères ça,
42:22tu travailles dessus six mois dans ton coin ». C'est au contraire d'avoir quelque chose qui
42:26est vivant, qui est en permanence enrichi, à la fois par les routines existantes et
42:31puis toutes les fonctionnalités qu'on développe.
42:33Alors, les données de la recherche. A priori, je l'ai dit quand j'ai dit l'intégration de
42:55data site. Le mouvement est plutôt de ne pas prendre les données de la recherche. Pour des
43:07raisons de cohérence de l'infrastructure et pour d'autres questions et problèmes. Mais voilà,
43:13c'est susceptible de changer s'il y a des demandes très fortes de cette nature.
43:17Est-ce que tu as répondu à la question autour d'Isidor et Mathilda ?
43:28Oui, c'est-à-dire qu'on a bénéficié d'un certain nombre de développements d'Isidor,
43:34mais les différences énormes, c'est qu'il n'y a pas de compte utilisateur. Là,
43:40ce sera un grand choix en V4, V5 ou V6, est-ce qu'on fait des comptes utilisateurs ou pas,
43:44qui supposent plein de questions, le GDPR, des formes de sécurité informatique de nature
43:50différente, etc. Ce n'est pas limité au SHS et c'est totalement multilingue. Aujourd'hui,
43:56déjà, il y a des utilisateurs, puisque j'ai une tableau de bord, qui font des interrogations en
44:01arabe. Évidemment, j'ai utilisé DeepL pour savoir si c'était un truc sérieux ou si c'était des
44:08mots aléatoires. Non, non, c'était le genre politique de l'éducation sur les technologies
44:14informatiques. Donc, c'est la grosse différence avec Isidor, mais on a bénéficié clairement,
44:22avec Stéphane Pouillaud, des expériences antérieures d'Isidor et de ce qu'il fallait
44:28faire et de ce qu'il ne fallait pas faire, à priori. Mais après, on a fait des choix qui étaient
44:32à la fois pragmatiques, liés à nos ressources et aux difficultés de développement. C'est-à-dire
44:38que moi, j'aurais plutôt vu des courriels, mais on m'a dissuadé et on m'a dit non, en fait,
44:44il faut passer par le flux RSS qui, aujourd'hui, connaît une espèce de retour en vogue,
44:49qui a des avantages à la fois sur le partage et écologique non négligément.
44:55Il est 13h47. Peut-être, à moins que tu souhaites prendre une dernière question.
45:08Oui, je vais répondre. Le coût de la maintenance est annuel. Oui, oui, parce que la maintenance,
45:13c'est continu. Et donc là, je dois à mes développeurs-mainteneurs 30 000 euros. Voilà.
45:20Donc, il faut que je trouve, en fin 2024, 30 000 euros. Je compte sur vous, mais pas que sur vous.
45:24Je vous rassure, mais vous pouvez commencer. Voilà. Puisqu'encore une fois, le choix,
45:29pour le moment, qui est un choix à la fois volontaire et pragmatique, c'est, entre guillemets,
45:35une infrastructure sans personnel. Voilà. Vous connaissez toutes et tous les difficultés,
45:39notamment de recrutement d'informaticiens dans la fonction publique, liées aux grilles,
45:44liées à l'état du marché de l'emploi, etc. Donc, c'est le choix qui est fait dans l'état actuel,
45:50et qui va nous suivre pendant quelques années. Oui, le bittex massif, c'est prévu, mais ça pose
46:04des problèmes à la fois de calcul et d'affichage. C'est évidemment ce que je souhaitais a priori.
46:09Voilà, vous avez 5 000 résultats, vous cliquez sur 3 boutons, vous les récupérez. Mais en fait,
46:13ça pose des questions non triviales. Avant la V3, impossible. Et après la V3, on verra.
46:19Est-ce qu'on peut revenir sur le tri par date ? Alors, j'en dis juste un élément. Aujourd'hui,
46:25vous le verrez, si vous utilisez massivement Matilda. Par exemple, si vous triez par les
46:30plus récentes, vous dites « ah mais en fait, ce n'est pas la plus récente qui est là ». C'est-à-dire
46:33qu'on prend en compte beaucoup les dates de modification. Non seulement on a 30 000 à 40
46:38000 nouveaux textes par jour qui sont intégrés dans Matilda, mais en fait, on a un niveau de
46:44modification, notamment venant de Crossref, qui est sans commune mesure, qui est de plusieurs
46:48centaines de milliers, voire de deux millions de documents. Et donc, on va faire là des choix
46:54qui vont être plutôt liés à la date de création, mais qui en fait ont des conséquences non
46:58négligeables. Encore une fois, liés à la multiplicité des dates sur une même œuvre.
47:04Et donc, il va falloir faire des choix en fonction de ce qu'on pense être les choses
47:09les plus importantes par nos utilisateurs. Mais n'hésitez pas, Elodie, je répondrai à
47:17venir. Il y a sur le site un accès à un courriel, donc n'hésitez pas à poser des questions,
47:25à faire des remarques. Comme je l'ai dit, on est passé, en fait, à la fin de la semaine
47:30dernière, dans une phase où il y avait une discrétion absolue sur l'infra, et là,
47:38on passe en publicité massive. Donc, plus on discute de Matilda, y compris de manière critique,
47:42meilleur c'est pour l'infrastructure. On a bien noté, on note vraiment toutes les questions,
47:51parce que je crois qu'il y en a vraiment, vraiment beaucoup. Et c'est bien de les
47:55réorganiser pour pouvoir mieux y répondre. Voilà, sur les publics, je vais juste dire un
48:03mot. C'est qu'aujourd'hui, sur le faible public, mais encore une fois volontaire,
48:06voilà, j'étais très, très surpris. Donc, deux usages qui commencent à exister. Le premier,
48:11qui devrait être évident, mais auquel je ne pense jamais, c'est ce que j'appelle l'usage
48:13catalogue. C'est-à-dire, on rentre, en fait, un titre complet d'article, clairement, et c'est ça
48:17qu'on cherche, en fait. Et en fait, une collègue me disait, qui est là, qui est présente, que c'est
48:24sans doute l'usage le plus important de Google Scholar, en fait. C'est-à-dire, voilà, les gens
48:27veulent juste récupérer des métadonnées pour faire un trip dans leur BBO, ou juste y accéder. Et le
48:33deuxième, clairement, certaines clés me laissent à penser que c'était un public non académique qui,
48:39aussi, déjà recherchait sur Mathilda. Évidemment, ça fait partie de la science ouverte. Dernière
48:44phrase que je veux indiquer et qui est assumée. Donc, tous les textes sont nés égaux, on les
48:51prend tous, mais après, dans leur développement et leur histoire, il y a des différences. Il y a
48:55des textes qui, un jour, sont ouverts, ou du moins, dont une version est ouverte, et il y a des textes
48:59qui ne le sont jamais. Il est clair que ceux dont le développement post-adolescence passe par
49:05l'ouverture sont favorisés par le moteur. De manière mécanique, si j'ose dire, puisque si vous avez
49:11un PDF, toutes les métadonnées qui sont présentes, le résumé, etc., le fait, entre guillemets, d'attraper
49:16et les références qui sont bien notées, etc. Le fait d'attraper ce texte est beaucoup plus simple
49:20que d'un texte sur lequel vous avez l'auteur, le titre, la revue, l'année, pas de résumé et texte
49:26fermé légalement pas accessible. Donc, on assume le fait que, même si tous les textes sont nés égaux,
49:31le moteur va, on va dire, techniquement favoriser les textes les plus ouverts et les textes dont
49:38les auteurs et les éditeurs ont fait un travail spécifique, important, qui est évidemment non
49:47négligeable, dans les sources pour pouvoir être cherchables et trouvables le plus facilement
49:52possible. Merci beaucoup Didier. Christelle, je te laisse la parole pour la conclusion. Merci beaucoup
50:04de votre intervention qui, je pense, a éclairé de nombreux collègues parmi nous et aussi de
50:11votre disponibilité et avoir répondu très rapidement à notre invitation. On est vraiment
50:15très content de pouvoir partager autour de Mathilda aujourd'hui. Donc, pour les détails
50:20techniques, Aurélie vous a dit en introduction que cette session de formation et de présentation
50:27était enregistrée, donc elle sera mise à disposition sur le site de Coupra et on vous
50:33enverra également donc une synthèse des questions et leurs réponses sur les listes de diffusion que
50:41nous avons utilisées pour vous communiquer l'annonce de cette présentation de Mathilda.
50:47Merci encore Didier et merci à tous. Merci, bon après-midi à toutes et tous. Merci également.
50:55Vous restez en ligne juste pour qu'on voit comment on fait pour les questions ? Merci.

Recommandée