Le projet ORESM
Un inventaire commun : des données sémantisées
Le projet Œuvres et Référentiels des Étudiants, Suppôts et Maîtres de l’université de Paris au Moyen Âge [ORESM], vise à rassembler et publier différentes ressources documentaires sur la vie universitaire parisienne, du XIIe au XVIe siècle.
Il propose notamment de publier un inventaire qui permettra de reconstituer virtuellement les fonds d’archives issus de l’ancienne université et des collèges parisiens, aujourd’hui répartis entre différentes institutions de conservation.
Il cherche aussi, à travers des analyses poussées faites sur les documents, à constituer un référentiel de personnes physiques ayant séjourné dans ces structures d’enseignement.
Cette journée d’étude présentera les dernières avancées du projet, notamment la progression des travaux de dépouillement des archives des collèges parisiens, la publication en ligne d’un premier inventaire et enfin la transformation des données descriptives archivistiques en données RDF, conformes à la toute nouvelle ontologie Records in Context, qui offrira à terme aux chercheurs des possibilités de recherche encore plus poussées.ORESM est coporté par la Bibliothèque interuniversitaire de la Sorbonne et le Centre Lucien-Febvre (université de Franche-Comté). Ce projet repose sur un partenariat avec des unités de recherche, comme le Laboratoire de médiévistique occidentale de Paris, et des institutions de conservation, comme les Archives nationales qui financent cette journée. Il bénéficie du soutien du LabEx Hastec, de la région Île-de-France (DIM-SCTN) et de CollEx-Persée.
Un inventaire commun : des données sémantisées
Le projet Œuvres et Référentiels des Étudiants, Suppôts et Maîtres de l’université de Paris au Moyen Âge [ORESM], vise à rassembler et publier différentes ressources documentaires sur la vie universitaire parisienne, du XIIe au XVIe siècle.
Il propose notamment de publier un inventaire qui permettra de reconstituer virtuellement les fonds d’archives issus de l’ancienne université et des collèges parisiens, aujourd’hui répartis entre différentes institutions de conservation.
Il cherche aussi, à travers des analyses poussées faites sur les documents, à constituer un référentiel de personnes physiques ayant séjourné dans ces structures d’enseignement.
Cette journée d’étude présentera les dernières avancées du projet, notamment la progression des travaux de dépouillement des archives des collèges parisiens, la publication en ligne d’un premier inventaire et enfin la transformation des données descriptives archivistiques en données RDF, conformes à la toute nouvelle ontologie Records in Context, qui offrira à terme aux chercheurs des possibilités de recherche encore plus poussées.ORESM est coporté par la Bibliothèque interuniversitaire de la Sorbonne et le Centre Lucien-Febvre (université de Franche-Comté). Ce projet repose sur un partenariat avec des unités de recherche, comme le Laboratoire de médiévistique occidentale de Paris, et des institutions de conservation, comme les Archives nationales qui financent cette journée. Il bénéficie du soutien du LabEx Hastec, de la région Île-de-France (DIM-SCTN) et de CollEx-Persée.
Category
📚
ÉducationTranscription
00:00:00 [Musique]
00:00:12 On va passer à la deuxième consacrée à la création d'un instrument de recherche en XMLE-AD
00:00:19 qui va être présenté par Arsène Georges et Sébastien Clément
00:00:23 pour introduire, et le temps qu'Arsène s'installe et que Sébastien se montre,
00:00:30 il s'agissait d'une hypothèse qu'on avait avancée lors du dernier Conseil scientifique,
00:00:38 l'idée étant que le projet Oresme, la mise en place du portail,
00:00:43 évidemment prenait du temps, était quelque chose de complexe,
00:00:46 et qu'il pouvait être utile aux chercheurs d'avoir l'inventaire statique en attendant le portail.
00:00:55 Et on avait discuté à l'occasion de ce CS sur les modalités de cette mise en ligne.
00:01:03 Nous, nous avions pensé d'abord à une plateforme de diffusion XML,
00:01:07 et Florence Claveau nous avait proposé de faire plutôt un site statique,
00:01:12 mais il s'est avéré que c'était beaucoup trop long,
00:01:14 et donc on est revenu sur notre projet de plateforme XML,
00:01:18 et c'est ce projet dans le projet qui va vous être présenté.
00:01:22 Donc il s'agit d'une exposition transitoire des données qui ont été produites
00:01:27 dans le cadre des dépouillements et du recueil des inventaires existants.
00:01:31 Bonjour à tous, pour ceux qui ne me connaissaient pas encore,
00:01:35 je suis Arsène Georges, l'ingénieur d'études qui a été chargé de créer concrètement
00:01:40 cette première forme de l'inventaire d'ORESM.
00:01:45 Comme l'a rappelé Laurence, effectivement, il s'agit d'une forme transitoire
00:01:51 de cet inventaire général d'ORESM, de ces données,
00:01:55 avant la création de la base de données en graphes future,
00:02:01 qui sera plus précise et plus conséquente.
00:02:07 Je rappelle d'où viennent les données que l'on a utilisées pour l'instant.
00:02:12 La majorité des données viennent des séries MSAU pour les registres
00:02:19 et MSAUC pour les cartons de l'ABIS,
00:02:24 et des séries M et MM des archives nationales,
00:02:30 auxquelles on a ajouté les fameux neuf registres de la faculté de médecine
00:02:37 qui sont conservés à la bibliothèque interuniversitaire de santé.
00:02:41 Cet inventaire est né en 2021, alors que Lucie Vieillon était encore la chef de projet.
00:02:53 On avait réfléchi au début à une structure, un arbre XML,
00:03:02 une sorte de squelette, avec Jean-François aussi,
00:03:05 afin de créer une nouvelle structure inédite,
00:03:12 une nouvelle structure intellectuelle,
00:03:15 afin de créer un inventaire méthodique,
00:03:18 et donc de ne pas uniquement reprendre toutes les données de manière linéaire,
00:03:24 une par une, dans l'ordre des codes ou dans l'ordre des institutions de conservation.
00:03:29 Je n'étais pas là la dernière journée d'études d'ORESM,
00:03:36 c'était en novembre ou décembre 2021, je crois.
00:03:39 J'imagine que vous en aviez un petit peu parlé.
00:03:43 Cet inventaire, auquel on avait déjà réfléchi à la structure,
00:03:53 avait ensuite été rempli par moi lors d'un stage que j'avais fait en 2021 ici.
00:03:59 C'était une première, pas forcément une épreuve,
00:04:09 mais une expérience pas forcément évidente techniquement à mettre en œuvre,
00:04:13 puisqu'il avait fallu, d'une part, "nettoyer" les inventaires desquels je partais
00:04:21 pour créer cet inventaire.
00:04:23 J'avais donc eu un export de l'inventaire de l'Abyss,
00:04:27 qui avait été créé via le logiciel Calam,
00:04:30 et puis un export de l'inventaire des ANs,
00:04:35 des pièces concernant l'université, dans les séries M et MM,
00:04:40 bien que, comme Jean-François l'a rappelé tout à l'heure,
00:04:44 dans cet export se trouvent aussi des pièces et des liasses
00:04:50 qui auraient dû rester dans les séries S et H3,
00:04:55 pour les comptes et les biens.
00:04:57 Il avait fallu, premièrement, extraire de ces inventaires que j'utilisais
00:05:07 les pièces qui concernaient notre période.
00:05:11 Le fait est que, dans la mesure où il y avait des centaines de pièces à traiter,
00:05:16 l'enjeu était de le faire automatiquement, via des scripts.
00:05:20 Par exemple, au début, j'ai dû supprimer toutes les pièces postérieures à l'année 1600,
00:05:28 tout en faisant attention à garder les vidimus et les copies postérieures,
00:05:33 d'actes antérieurs à l'année 1600.
00:05:35 C'était déjà une certaine épreuve à réaliser techniquement.
00:05:39 J'avais abouti à une première forme de cet inventaire EAD,
00:05:49 assez satisfaisante, à l'été 2021.
00:05:54 Je suis revenu travailler ici en 2022,
00:05:58 et j'ai pu reprendre le travail sur cet inventaire.
00:06:01 J'ai procédé à quelques corrections, à quelques harmonisations qui étaient nécessaires.
00:06:07 L'enjeu étant que, comme vous le voyez, les données viennent de réservoirs différents,
00:06:16 et cela induit une certaine hétérogénéité, plus ou moins fine, plus ou moins précise, dans les données.
00:06:24 Le gros chantier de ces derniers mois, de l'année 2022,
00:06:33 a été la transformation des données issues des dépouillements,
00:06:38 qui étaient réalisées par Louise Gousseau,
00:06:42 en XML EAD, pour les injecter dans l'inventaire général.
00:06:47 Comme l'a rappelé Jean-François,
00:06:50 Louise Gousseau dépouillait toutes les pièces qu'elle avait repérées,
00:06:57 pour, on l'a dit, pour l'instant, 12 collèges, spécifiquement.
00:07:02 Nous sommes arrivés à 1408 actes.
00:07:07 Je crois qu'il y a aussi le collège de Bourgogne qui a la traité récemment,
00:07:13 et que l'on est plutôt à 1441 actes dépouillés.
00:07:20 Ces dépouillements concernent exclusivement, pour l'instant, que les collèges,
00:07:29 et proviennent pour 95%, voire un peu plus,
00:07:35 95% des pièces des archives nationales,
00:07:39 auxquelles on a ajouté, comme l'a dit Jean-François tout à l'heure,
00:07:43 quelques pièces, je crois que c'est entre une trentaine, une cinquantaine,
00:07:47 de pièces conservées dans certaines archives départementales,
00:07:51 comme celles de Loise ou de Seine-et-Marne.
00:07:54 Le premier enjeu technique a été cette transformation des données,
00:08:00 qui m'est arrivé en format de fichier tabulaire, en tableur,
00:08:06 dans lesquels une ligne correspond à une pièce dépouillée,
00:08:12 et chaque colonne correspond à une donnée sur cette pièce.
00:08:16 Il a fallu donc, dans le but d'intégrer ces nouvelles données à l'inventaire EAD,
00:08:24 les transformer en XML EAD.
00:08:27 La première difficulté, on va dire, a été de traduire,
00:08:36 effectivement, toutes ces données textuelles en XML EAD.
00:08:41 Pour un certain nombre de données, comme la code, ou l'intitulé,
00:08:48 ou la date, ou la description matérielle, c'était relativement simple à faire,
00:08:55 mais étant donné la complexité et la précision de ces dépouillements fins qui ont été réalisés,
00:09:03 et à dessein, pour avoir un maximum de précision scientifique,
00:09:08 même si on est toujours un peu contraint par les moyens à disposition,
00:09:13 il y a un certain nombre de données qui sont très difficilement traductibles en XML EAD,
00:09:21 qui n'ont pas forcément été créées pour un tel niveau de complexité de la donnée.
00:09:26 Beaucoup de données se retrouvent par exemple dans la fameuse description de contenu en EAD,
00:09:36 comme le type d'acte, au niveau de sa forme juridique,
00:09:44 les analyses et les descriptions des actes insérés, ou des actes bidimmés,
00:09:50 les estimations de nombre de personnes dans les pièces, etc.
00:09:55 Donc ça c'était une première difficulté.
00:10:08 Ce qui se passait, c'était que, étant donné que Louise dépouillait toutes les pièces, une par une,
00:10:19 je disais que la deuxième difficulté pour cette transformation a été au niveau très formel, très technique,
00:10:31 puisque Louise a dépouillé une pièce une par une,
00:10:35 en reprenant les pièces déjà présentes dans l'export des ANs que j'avais utilisées dans mon inventaire général,
00:10:46 et en ouvrant chaque dossier, ou chaque liasse, quand la description archivistique n'allait pas plus précisément,
00:10:54 je me retrouvais avec un tableau avec chaque pièce décrite les unes à la suite des autres.
00:11:05 Techniquement, on peut relativement facilement créer un arbre XML à partir de données textuelles,
00:11:18 dans lesquelles on injecte chaque donnée textuelle dans les bonnes balises.
00:11:29 La difficulté, c'était que lors de la création de ces données en XML EAD,
00:11:36 on se retrouvait rapidement avec une liste linéaire de pièces décrites,
00:11:45 ce sont les composants C en XML EAD, les éléments C, listés les uns à la suite des autres,
00:11:52 et on perdait totalement la structure et l'arborescence qu'à l'époque, avec Lucie et Jean-François,
00:12:01 nous avions décidé de garder, en nous inspirant de la structure qui avait été décidée, créée,
00:12:13 lors de la création des inventaires aux archives nationales.
00:12:18 Typiquement, pour chaque collège, ça se traduisait par une sous-partie pour les actes de fondation des collèges,
00:12:28 les statuts parfois, les listes de boursiers quand on en avait, les listes de biens, etc. et les listes de comptes.
00:12:35 Et une fois que l'on traduit, que l'on veut transformer ces données en XML EAD,
00:12:43 on perd toute cette structure, toute cette arborescence.
00:12:48 Et pour essayer de garder cette structure, il a fallu ruser un peu.
00:13:01 Comme je vous l'ai dit, dans l'inventaire, la majorité des cas dont on parle,
00:13:08 des pièces dépouillées viennent des ANN, donc j'ai pu accélérer un peu le travail de Louise
00:13:18 en récupérant et en pré-rempuissant ces tableaux de dépouillement grâce aux données déjà contenues
00:13:28 dans l'inventaire que j'ai utilisé dans mon inventaire général concernant les pièces conservées aux archives nationales.
00:13:36 Typiquement, je pré-remplissais les tableaux avec les fameux identifiants numériques
00:13:45 qui avaient été générés automatiquement par l'ESI des archives nationales,
00:13:51 la cote, la date et l'intitulé, ce qui permettait à Louise d'aller un peu plus vite
00:13:59 et de redécrire, de redépouiller les pièces qui avaient déjà été décrites dans l'inventaire des ANN
00:14:07 et d'exploser, d'ouvrir chaque liasse, de décrire plus précisément chaque liasse ou chaque dossier
00:14:17 de l'inventaire des ANN et de chacun de ces dossiers créer plusieurs pièces, enfin de décrire plus précisément la pièce.
00:14:28 Et grâce à ce pré-remplissage du tableau, je peux prendre un exemple, par exemple si vous avez
00:14:39 un dossier décrit, un ensemble de pièces décrites uniquement à l'alias dans l'inventaire des ANN initial,
00:14:48 Louise dépouillait donc chaque pièce de l'alias ou du dossier et se retrouvait avec plusieurs pièces
00:14:56 à la place de ce dossier ou dans ce dossier. Et dans la mesure où j'ai pré-rempli ces tableaux
00:15:04 avec un identifiant numérique que je récupérais de l'inventaire initial des ANN au dossier ou à la pièce,
00:15:12 quand c'était décrit à la pièce, on a pu faire le lien entre chaque pièce dépouillée et la pièce dépouillée
00:15:22 initialement, donc moins précisément dans l'inventaire des ANN, ou avec l'alias ou le dossier parent
00:15:28 de toutes ces pièces dépouillées. Et ainsi, j'ai pu faire le lien entre toutes ces pièces dépouillées
00:15:37 et leur dossier parent et les injecter de cette manière automatiquement aux bons endroits,
00:15:46 systématiquement dans mon inventaire général, en remplissant les trous, les flous laissés par une description
00:15:56 moins précise au dossier, à l'alias, de manière à garder l'arborescence, la structure intellectuelle
00:16:06 qui avait été décidée lors de l'encodage de l'inventaire initial aux ANN, que nous avions trouvé
00:16:15 assez pertinent et assez intéressant, en tout cas assez pour le conserver.
00:16:22 Alors évidemment cela concerne la majorité des pièces qui viennent des ANN, mais pour le cas des pièces
00:16:31 conservées dans certaines archives départementales, il nous reste à le faire, on a dû le faire à la main
00:16:39 pour l'instant. Pour l'instant ça ne concernait qu'une cinquantaine de pièces, tout au plus, donc c'était
00:16:45 relativement simple et ça ne prenait pas trop de ressources humaines au niveau de temps, etc.
00:16:52 Mais peut-être qu'on ne va pas pouvoir le faire encore longtemps, je ne sais pas trop si on va pouvoir le faire
00:17:01 autrement qu'à la main. Alors même si cette technique m'a bien été utile, puisque ça concerne
00:17:12 environ 1350 ZAK que j'ai pu injecter pour chaque collège au fur et à mesure automatiquement.
00:17:22 Ce qui a aussi permis d'éviter de prendre beaucoup de temps évidemment et de faire des erreurs humaines.
00:17:32 Donc aujourd'hui, à l'heure qu'il est, on a un dossier, un inventaire XML EAD qui a été un petit peu
00:17:44 harmonisé, un petit peu amélioré par rapport aux différents gisements, aux différents exports de données
00:17:50 qu'on a utilisés originellement et qui a été augmenté aussi par toutes ces données de dépouillement.
00:17:58 Et donc je crois qu'on arrive à un total de 3273 pièces. Il reste bien sûr beaucoup de corrections et d'harmonisation
00:18:13 possibles à faire devant l'hétérogénéité de toutes ces données. Je vous ai mis un exemple ici assez parlant
00:18:22 qui concerne les rôles attribués aux personnes dans certaines pièces. Dans l'export par exemple des données
00:18:32 qu'on a utilisées de l'Abyss, qui vient de Calam, les noms de personnes sont indexés dans l'intitulé et ces noms
00:18:42 de personnes sont accompagnés d'un attribut rôle qui est censé décrire le rôle qu'a la personne dans la pièce
00:18:51 ou dans l'acte. Ces rôles correspondent à des codes unimarques, des codes avec des chiffres, par exemple
00:19:04 hauteur 0.70, compilateur 220, copiste 700. Et de l'autre côté on a voulu lors des dépouillements repenser
00:19:18 ces différents rôles que pouvaient prendre les personnes évoquées qui apparaissent dans ces pièces.
00:19:29 Et on se retrouve par exemple avec des valeurs de rôles différents entre deux pièces selon d'où elles viennent.
00:19:41 Donc pour l'instant j'ai proposé une harmonisation de tous les rôles des personnes indexées par rapport
00:19:50 aux rôles que l'on a pensé pour les dépouillements fins, qui se veulent un peu plus précis, scientifiques
00:19:57 et un peu plus adaptés à notre contexte archivistique et scientifique du Moyen-Âge dans le milieu universitaire.
00:20:07 Mais ça pose un problème au niveau purement textuel dans l'inventaire EAD.
00:20:15 Cette question pour l'instant est encore en suspens, mais c'est une piste d'harmonisation possible.
00:20:26 J'avais aussi quelques difficultés au niveau de la forme normalisée de certaines dates,
00:20:34 puisque même si toutes les dates sont censées avoir une forme normalisée dans la description des pièces,
00:20:44 alors je crois qu'elles ont une forme standardisée selon la norme ISO 8601,
00:20:55 toutes les pièces n'ont pas eu une normalisation de leur date,
00:21:03 et même quand une normalisation selon la norme ISO 8601 a été utilisée,
00:21:08 cette même norme étant légèrement un peu floue, un peu ouverte,
00:21:15 on n'avait pas forcément non plus la même syntaxe pour cette forme standardisée.
00:21:25 Il y a quelques cas où la normalisation, l'harmonisation de ces données est relativement facile à faire au niveau technique,
00:21:35 mais il y a d'autres cas qui sont un peu plus complexes au niveau purement technique, au niveau purement textuel, à faire automatiquement.
00:21:46 Et ça m'amène à un autre exemple de conflit.
00:21:53 Ça on vous le présentera un peu plus en détail après avec Sébastien,
00:21:58 mais c'est une proposition d'affichage avec le logiciel Max,
00:22:05 que l'on souhaite utiliser pour publier cet inventaire dans le futur.
00:22:10 Ces deux pièces proviennent des inventaires de l'Abyss.
00:22:17 Dans le premier cas, je ne sais pas si vous voyez bien,
00:22:20 on a un vidimus par Robert Destouteville, garde de la Prévoté de Paris,
00:22:24 des lettres de Charles VII confirmant les privilèges de l'université donnés à Bourges en mai 1436,
00:22:30 avec ajoutée juste à la suite la date du vidimus lui-même, le 14 décembre 1457.
00:22:38 Quand on regarde l'arbre XML, on a une balise d'intitulé,
00:22:49 et une balise de datation dans la balise d'intitulé.
00:22:55 Et même si ce n'est pas faux en EAD de faire ainsi,
00:23:01 ce n'est pas forcément une bonne pratique,
00:23:05 puisque du coup on ne balise qu'une date sur les deux, déjà dans le titre.
00:23:12 On a mai 1436 et 14 décembre 1457.
00:23:17 Ça peut poser des problèmes d'affichage au niveau technique,
00:23:21 lorsque l'on veut publier, on a connu un problème comme ça avec Sébastien.
00:23:28 Du coup, moi par exemple, je peux décider de supprimer les balises de date dans l'intitulé,
00:23:38 pour ne garder que la date comme ça dans le titre,
00:23:42 et copier le contenu de la date dans une autre balise de date indépendante en dessous,
00:23:47 pour avoir une case datation avec la date.
00:23:50 Mais je ne pourrais pas le faire automatiquement pour toutes les pièces,
00:23:55 puisque vous voyez bien que dans le deuxième exemple,
00:23:58 la date fait partie intellectuellement intégrante du titre.
00:24:03 Et je suis en train d'évaluer combien de pièces cela concerne,
00:24:12 mais typiquement c'est un cas un peu irréductible,
00:24:15 qu'on devra sûrement gérer, corriger à la main,
00:24:19 et qui pourra prendre potentiellement beaucoup de temps.
00:24:23 Voilà pour ça.
00:24:28 Qu'est-ce que je peux ajouter ?
00:24:35 Oui, je peux aussi parler des cas des personnes non indexées.
00:24:43 Dans l'inventaire général, on a des données principalement qui viennent de l'abysse,
00:24:49 des AN et des déprimements fins.
00:24:52 Pour les données qui viennent de l'abysse,
00:24:55 les personnes principales sont indexées.
00:25:00 De même pour les données issues des déprimements.
00:25:04 Pour certaines pièces, on a des listes de boursiers,
00:25:07 par exemple, on peut avoir jusqu'à plusieurs dizaines de noms.
00:25:11 Mais ce n'est pas le cas pour les données un peu plus générales,
00:25:15 sur l'université en général, pas forcément sur les collèges,
00:25:18 qui viennent de l'export des AN initiales,
00:25:22 où les noms de personnes ne sont pas indexés.
00:25:25 Et alors là, à part éventuellement tester une IA dessus,
00:25:29 c'est un travail qui devrait être fait à la main,
00:25:32 et je crois que j'avais estimé ce nombre de cas à 300 personnes,
00:25:38 dans plusieurs dizaines de pièces.
00:25:44 Donc si on voulait avoir des données parfaitement harmonisées,
00:25:49 parfaitement corrigées,
00:25:53 ce serait un autre travail assez important à mener.
00:25:57 Voilà pour ma présentation et les enjeux.
00:26:05 Je suis en train de travailler à une simplification
00:26:09 et une amélioration de mon script,
00:26:12 sinon pour transformer les données,
00:26:15 les prochaines données qui émaneront des prochains dépouillements,
00:26:20 et les injecter dans l'inventaire UAD.
00:26:23 Ce n'est pas forcément évident de le faire
00:26:26 sans un minimum de connaissances techniques,
00:26:30 donc c'est un autre enjeu dont j'ai à me préoccuper
00:26:34 avant de passer à la suite.
00:26:37 Voilà pour la présentation.
00:26:40 Je ne sais pas si Sébastien enchaîne directement ?
00:26:44 Non, je ne sais pas si j'ai mis la vidéo enregistrée.
00:26:48 J'ai vu dans l'exemple de notice que tu as montré en forme UAD
00:26:55 que la typologie juridique de l'ACQ, par exemple,
00:26:58 avait été injectée, puisque ce n'est pas une balise UAD existante,
00:27:01 en scope content.
00:27:04 Comment on va pouvoir faire une exploitation normalisée
00:27:08 d'une donnée, puisque là elle se retrouve dans une balise plus générale ?
00:27:12 Est-ce qu'il y a des attributs nouveaux qui ont été créés pour ça ?
00:27:16 En partant du format UAD préexistant,
00:27:21 non, j'ai juste utilisé
00:27:25 de nouvelles balises de cotes d'identification de la pièce,
00:27:31 avec un attribut, par exemple, anciennes cotations,
00:27:36 lorsque l'on relevait les anciennes cotations sur les pièces.
00:27:39 Oui, mais ça, ça existait déjà.
00:27:42 En revanche, la forme juridique de l'ACQ, j'ai vu que c'était intégré dans un scope.
00:27:47 Je me suis inspiré de ce qu'avait fait et testé Jean-François
00:27:51 quand il avait procédé à des corrections de certaines pièces dans son inventaire.
00:27:57 Souvent, on se repose sur le fameux scope content
00:28:02 avec une description la plus normalisée possible,
00:28:07 avec la donnée que l'on décrit de point
00:28:12 et la donnée que l'on a pour chaque pièce.
00:28:15 Sinon, non, je n'ai pas changé, je n'ai pas tordu.
00:28:20 Donc c'est du texte libre, mais entré sous forme la plus normalisée possible
00:28:24 avec l'espoir qu'on arrivera à l'exploiter après ?
00:28:27 C'est un compromis.
00:28:33 J'ai une question au sujet des liens que vous faites entre les différentes pièces.
00:28:39 Voilà exactement ce que vous avez montré.
00:28:42 Il s'agit ici de la structure archivistique actuelle.
00:28:46 Vous avez relié toutes les pièces du carton M12 au carton M12.
00:28:53 C'est ça.
00:28:54 D'accord.
00:28:55 Qu'en est-il et quelles sont les possibilités techniques pour les liens ?
00:29:02 Ce qu'a montré Jean-François tout à l'heure,
00:29:05 des actes entre eux, cette fois en termes historiques de contenu,
00:29:10 actes insérés, vidimus, vous avez montré des vidimus.
00:29:13 Donc ça c'est quelque chose qui va devoir être fait,
00:29:17 puisque c'est tout l'intérêt quand même de l'inventaire virtuel,
00:29:20 c'est de pouvoir relier tous les actes à la fois à leur contexte archivistique,
00:29:25 mais aussi à leur contexte historique et je dirais à leur tradition,
00:29:28 parce qu'on ira avec le projet écru jusqu'à l'édition.
00:29:33 Alors ça c'est quelque chose qui peut être automatisé,
00:29:37 qui doit être fait, ça sera évidemment vérifié,
00:29:40 mais enfin qui peut être automatisé ou qui ne peut être fait qu'à la main,
00:29:44 comme vous l'avez fait là ?
00:29:45 Parce que ça va vraiment, disons là on est dans…
00:29:47 Oui, alors de mémoire ça dépend des cas,
00:29:51 des fois Louise trouvait relever un identifiant,
00:29:57 elle relevait l'identifiant numérique de l'acte vidimé ou de l'acte original,
00:30:06 dans le cas de copy ou de vidimus,
00:30:09 donc un lien existe, mais je ne suis pas sûr qu'il soit présent systématiquement,
00:30:15 et je pense qu'effectivement dans certains cas,
00:30:20 il faudra le faire à la main selon l'intitulé des pièces,
00:30:25 de l'original ou de la copie ou du vidimus.
00:30:29 Est-ce qu'il ne serait pas possible informatiquement,
00:30:33 de demander à la machine de nous proposer par exemple,
00:30:37 parce que dans l'acte inséré on a une date,
00:30:40 au quantième, on a un auteur éventuellement,
00:30:44 de faire des accouplements comme ça ?
00:30:48 Je pense que c'est possible, oui.
00:30:50 Voilà, parce que là, tel que c'est parti,
00:30:54 on est déjà, vous avez dit, plus de 3000 pièces,
00:30:57 j'imagine que ça va évidemment augmenter,
00:31:01 à la main ça va être un peu pénible.
00:31:05 Mais tout à fait, alors ce sera…
00:31:08 Là on est au-delà des possibilités humaines.
00:31:11 Oui, alors effectivement, dès lors que l'on quitte l'humain
00:31:16 pour se reposer sur la machine,
00:31:19 on a plusieurs possibilités, plusieurs entrées
00:31:22 pour relier ces actes avec leur copie ou leur vidimus,
00:31:26 selon la date ou l'intitulé,
00:31:28 il y a des mots qui reviennent dans les intitulés,
00:31:31 où les dates correspondent,
00:31:34 mais ça peut éventuellement introduire un risque d'erreur.
00:31:39 Tout simplement.
00:31:41 Pour répondre à Thierry,
00:31:49 compléter ce qui a été dit,
00:31:51 si on reste sur un…
00:31:53 par rapport au formalisme XML/EAD,
00:31:56 une solution ça peut être d'individualiser les actes vidimés
00:31:59 dans leur propre composant C.
00:32:01 C'est-à-dire qu'on a un composant C, acte de vidimus,
00:32:05 qui contient par exemple deux sous-composants C,
00:32:07 où on aurait les analyses de chaque acte.
00:32:09 Ça peut être une possibilité pour l'inventaire EAD
00:32:13 de présenter les choses,
00:32:15 de créer vraiment une unité de description
00:32:17 pour un acte vidimé,
00:32:18 même si ça ne correspond pas physiquement à une pièce.
00:32:21 Si l'originaire se trouve par ailleurs,
00:32:28 écrit, lui aussi,
00:32:32 le lien entre les deux…
00:32:35 Oui, ça sera dans la base graph.
00:32:37 En XML, vous pouvez mettre en source,
00:32:43 enfin, en relaité de matériaux,
00:32:45 ou en source complémentaire, ça.
00:32:47 Mais je pense qu'on peut créer au moins un lien logique
00:32:49 en disant que le document vidimé
00:32:52 est englobé hiérarchiquement dans l'acte original supérieur.
00:32:56 C'est la seule chose que je vois possible de faire en EAD.
00:32:59 Ceci dit, normalement,
00:33:01 le unit date doit rester la date du document,
00:33:06 et pas la date du document éventuellement contenu.
00:33:11 C'est-à-dire qu'on a un composant C de niveau supérieur
00:33:15 qui est le vidimus, avec sa date,
00:33:18 mais vous pouvez intégrer dessous un sous-composant C
00:33:20 qui est l'acte vidimé,
00:33:21 et lui mettre un attribut unit date,
00:33:24 enfin, un élément unit date.
00:33:26 Même si…
00:33:29 […]
00:33:30 Ah oui !
00:33:31 Oui, bien sûr.
00:33:33 Bien sûr.
00:33:34 […]
00:33:42 Oui !
00:33:43 Dans beaucoup d'inventaires, c'est la date du document vidimé,
00:33:45 parce qu'on considérait que le document vidimé était plus important.
00:33:47 Mais c'est vrai que d'un point de vue archivistique,
00:33:49 on part du document physique.
00:33:51 Nous-mêmes, en interne aux archives nationales,
00:33:53 on a beaucoup de débats sur la façon de présenter ça.
00:33:56 Voilà.
00:33:57 Oui.
00:34:00 Tout à fait.
00:34:01 Oui, moi j'avais une question plutôt sur les noms.
00:34:05 Parce que j'ai vu là, Nicole Coquerel,
00:34:08 alors d'où vient cette forme ?
00:34:10 Est-ce que c'est celle de l'inventaire sommaire
00:34:12 que vous avez simplement reprise,
00:34:14 ou est-ce que c'est celle du document ?
00:34:16 Parce que Nicole Coquerel, moi dans Studium,
00:34:18 je l'ai sous 10 orthographes différentes.
00:34:21 Le nom fréquemment commence par K,
00:34:23 c'est une forme picarde.
00:34:25 Et puis il y a les formes latines, bien sûr.
00:34:28 Nicole, ça s'appelait beaucoup aux érudites,
00:34:31 on l'appelait Nicolorem et tout ça.
00:34:33 Mais en fait, les gens, ils s'appellent Nicolas,
00:34:35 comme Nicolas Housse, toujours.
00:34:37 Voilà, il y a toutes...
00:34:39 Comment vous faites ?
00:34:40 Est-ce que, par exemple, Nicolorem,
00:34:43 je pense qu'il doit être dans VIAF.
00:34:45 Beaucoup d'autres ne le sont pas,
00:34:48 mais lui, il doit y être.
00:34:49 Donc voilà, comment faire ?
00:34:50 Alors au début, on avait dans la première forme
00:34:54 du tableau de déploiement initial,
00:34:56 on avait prévu effectivement d'augmenter
00:34:59 chaque nom de personne avec une forme normalisée,
00:35:05 des dates de vie et de mort,
00:35:07 et justement une suite d'identifiants
00:35:13 provenant de différents référentiels.
00:35:15 Mais on s'est aperçu que c'était très long,
00:35:19 c'était un travail assez long à faire à la main,
00:35:22 et que c'était très compliqué.
00:35:23 On avait essayé un petit peu avec Sébastien,
00:35:26 mais c'était aussi assez compliqué à faire
00:35:29 automatiquement via Descript,
00:35:32 puisqu'on allait chercher dans différents sites,
00:35:34 il n'y avait pas forcément la donnée à chaque fois.
00:35:37 Et donc, pour l'instant,
00:35:39 on a laissé cette partie du déploiement vide, en rien.
00:35:45 On souhaite faire ça plus tard,
00:35:49 de la manière la plus automatisée possible.
00:35:52 Mais dans un second temps,
00:35:55 parce que ça nous prenait beaucoup de temps.
00:35:58 Et aussi parce que, en fait,
00:36:03 pour nous, ce qui était important dans les dépouillements fins,
00:36:06 c'est qu'on ait des données fiables.
00:36:09 C'est-à-dire que ce qu'on trouve dans le dépouillement fin,
00:36:12 c'est la forme du nom tel qu'elle apparaît dans le document.
00:36:15 C'est ça qui est important pour le chercheur.
00:36:17 Ensuite, effectivement, tout le travail
00:36:19 qu'on doit faire pour lier les noms de personnes
00:36:21 dans leurs différentes formes à Studium, à VIAF,
00:36:24 à d'autres référentiels, c'est un second temps.
00:36:28 C'est une des tâches de reste.
00:36:30 D'autant qu'on n'est pas forcément...
00:36:32 Ce que je voulais dire, c'est que le nom qui était là,
00:36:34 c'est celui du document.
00:36:35 Oui, c'est ça.
00:36:36 C'est ça qu'on a fixé.
00:36:38 Sachant qu'on n'est pas encore parfaitement au point
00:36:41 sur quel référentiel de personnes
00:36:43 on voudrait utiliser, on voudrait lier,
00:36:46 et dans quel ordre ?
00:36:50 Bon, on pourrait y aller, j'espère.
00:36:52 OK, super.
00:36:53 Merci beaucoup.
00:36:54 Bonjour à toutes et à tous.
00:36:57 Je suis Sébastien Clément,
00:36:59 ingénieur de recherche à l'Abis.
00:37:02 Moi, mon rôle, ça a été de sélectionner,
00:37:05 d'installer, de paramétrer différents outils
00:37:10 pour pouvoir publier en ligne cet inventaire.
00:37:13 Vous m'entendez bien ?
00:37:15 Oui, impeccable.
00:37:17 OK, super.
00:37:19 Donc, je vous propose de faire un retour d'expérience
00:37:22 sur trois outils qu'on a sélectionnés,
00:37:25 donc trois outils open source,
00:37:27 utilisés pour la publication d'inventaires au format EAD.
00:37:32 Donc, nous avons sélectionné trois outils,
00:37:39 comme je vous le disais,
00:37:40 PLEAD, ATOM et MAX.
00:37:43 On va commencer par PLEAD,
00:37:47 dont les premiers développements ont commencé en 2004.
00:37:52 C'est un logiciel développé par la société AgilSM
00:37:56 et cette société propose une solution clé en main
00:38:01 pour l'installation et le paramétrage de son outil,
00:38:05 ainsi qu'un accompagnement pour la publication des inventaires.
00:38:09 Au niveau technique, l'architecture de PLEAD,
00:38:13 ça ressemble à ça.
00:38:14 C'est ce qu'on va retrouver un petit peu de commun
00:38:17 dans les trois outils.
00:38:18 On a donc un navigateur qui sert à afficher l'inventaire,
00:38:23 un serveur de page web.
00:38:26 Commun aussi aux trois outils, un environnement Java
00:38:32 qui sert pour la recherche, l'affichage,
00:38:35 l'indexation des données,
00:38:38 une base de données, le document XML
00:38:42 et un système de fichiers qui sert à stocker les images.
00:38:47 Je peux vous montrer ce que donne une instance de PLEAD.
00:38:54 Par exemple, ça a été choisi complètement au hasard,
00:39:08 des prises de vue d'une région des Pyrénées-Orientales.
00:39:13 On voit ici le plan de classement du document
00:39:19 qui se déroule ainsi.
00:39:21 On peut à l'intérieur choisir une pièce
00:39:26 et afficher par exemple une photo.
00:39:37 On peut choisir une autre.
00:39:40 Cet outil correspondait à ce que l'on souhaite.
00:39:57 Voir la structure du document, l'arborescence.
00:40:04 Ça marche très bien, c'est rapide.
00:40:07 Il y a une interface de recherche qui fonctionne aussi bien
00:40:14 et qui est rapide.
00:40:16 Comme vous pouvez le voir.
00:40:20 On affiche le document quand ça veut.
00:40:24 C'est l'exemple que je viens de vous montrer.
00:40:32 On peut voir les points positifs de ce logiciel.
00:40:37 Le cadre de classement est très clair.
00:40:41 On le voit parfaitement.
00:40:43 Il se parcourt de manière instinctive.
00:40:46 La recherche est performante.
00:40:49 Pour les tests que j'ai faits, ça fonctionne aussi très bien.
00:40:54 Les temps de réponse sont très bons.
00:40:58 De prime abord, l'outil est bien.
00:41:02 Les points négatifs, c'est que
00:41:07 on est parti sur des outils open source.
00:41:10 Les sources disponibles pour ce logiciel Playad
00:41:14 ne le sont que jusqu'à la version 3.5.9
00:41:18 qui n'est pas la dernière.
00:41:20 Elle date de 2016.
00:41:22 Elle comporte notamment des graves failles de sécurité
00:41:26 liées à la version du moteur Java embarqué dans cette version du programme.
00:41:31 Il existe une autre version, la 4.1,
00:41:34 mais on ne peut pas la télécharger librement.
00:41:38 On m'a répondu quand j'ai voulu le faire
00:41:43 que le prestataire ne proposait pas cette option
00:41:47 parce que c'était trop complexe à installer.
00:41:50 Donc, il faut passer par la société AgilSM
00:41:54 pour pouvoir installer cette version de Playad.
00:41:57 D'autre part, comme je vous le disais encore,
00:42:02 on part sur du logiciel libre.
00:42:04 La licence de Playad est visiblement libre,
00:42:07 sauf qu'il n'y a pas d'information de licence dans le code.
00:42:11 Donc, c'est un petit peu hasardeux.
00:42:13 Il n'y a pas de documentation.
00:42:15 J'ai mis "trépôt", mais en fait, pour moi, elle est inexistante.
00:42:18 Il y a quelques lignes pour l'installation de la 3.5.9,
00:42:21 mais c'est tout.
00:42:23 Et je n'ai pas vu de communauté d'utilisateurs
00:42:26 et/ou de développeurs,
00:42:28 puisque les développeurs sont au nombre de 1 ou 2 à ma connaissance.
00:42:33 Quand on a constaté ça, on a cherché d'autres alternatives à Playad
00:42:41 qui nous permettraient d'afficher l'inventaire.
00:42:45 On est parti sur un logiciel qui s'appelle Atom.
00:42:53 Il est développé et maintenu par une société qui s'appelle Artefactual
00:42:57 et qui existe depuis 2007.
00:42:59 Le développement initial a été financé par l'ICA,
00:43:03 et nous en sommes actuellement à la version,
00:43:06 je ne l'ai pas notée, 2.5 ou quelque chose comme ça de ce logiciel,
00:43:12 qui a 15 ans d'existence maintenant.
00:43:20 C'est un logiciel, au niveau technique,
00:43:23 qui s'appuie encore une fois sur un serveur web,
00:43:26 auquel est adossé un moteur de recherche,
00:43:29 en l'occurrence Elasticsearch.
00:43:31 Il y a toujours du Java derrière, une base de données en MySQL,
00:43:34 et l'interface étant PHP.
00:43:36 Voilà pour la partie technique,
00:43:39 que du standard.
00:43:43 Comme je vous le disais, c'est codé en PHP dans sa version 7,
00:43:49 qui n'est pas la dernière, on en est à la 8.
00:43:52 C'est basé sur un environnement de développement qui s'appelle Symfony,
00:43:56 qui est assez répandu.
00:43:58 Le problème qu'on a là, c'est que c'est dans sa version 1 de Symfony,
00:44:02 donc une version très ancienne.
00:44:05 Un autre aspect, c'est la nécessité d'utiliser Elasticsearch,
00:44:11 mais dans une version assez ancienne aussi, la version 5.
00:44:16 C'est nécessaire, pourquoi ? Parce qu'Atom utilise des API
00:44:19 qui ne sont plus disponibles de la même manière,
00:44:22 ou plus disponibles du tout, je ne sais pas trop,
00:44:24 après la version 5 d'Elasticsearch.
00:44:27 Tout ceci implique qu'on doit installer notamment une ancienne machine Java,
00:44:36 ce qui, dès qu'on parle d'installer d'anciens logiciels,
00:44:40 d'anciennes versions des logiciels, ça pose problème sur les versions récentes
00:44:43 des systèmes d'exploitation, parce qu'il faut faire cohabiter tout ça,
00:44:46 et que ce n'est pas trivial.
00:44:48 Ce qui fait que l'installation d'Atom est assez complexe.
00:44:53 Mais on finit par y arriver.
00:44:56 Et on a à ce moment-là un outil qui se présente.
00:45:01 J'avais fait des captures d'écran, mais comme on a un tout petit peu de temps,
00:45:04 je peux vous le présenter.
00:45:08 [Bruits de moustiques]
00:45:11 Ça, c'est la page du Wiki d'Atom,
00:45:18 où il y a tous les sites référencés qui utilisent Atom.
00:45:25 Comme vous pouvez le voir, il y en a quelques-uns.
00:45:28 Tous les liens ne fonctionnent pas, mais la plupart quand même.
00:45:34 Donc si on en prend un...
00:45:37 Voilà comment ça se présente.
00:45:41 Là, on a le plan de classement qui est ici.
00:45:51 On peut parcourir l'inventaire en EAD ainsi,
00:45:56 et arriver jusqu'aux documents qui nous intéressent.
00:46:02 Je trouve que la présentation est claire, simple, ça fonctionne.
00:46:06 Donc il y a cette présentation-là, il y en a une autre,
00:46:16 mais que je ne vais pas forcément vous montrer parce qu'elle n'est pas très intéressante.
00:46:21 Pardon ?
00:46:22 On ne voit pas très bien de loin.
00:46:25 Ah, on ne voit pas très bien, pardon.
00:46:27 Alors, attendez, si je...
00:46:31 Vous la voyez là, la présentation ou pas ?
00:46:34 Je peux zoomer, mais c'est tout.
00:46:38 Si moi je zoom ?
00:46:41 Comme ça ?
00:46:43 Mais je ne peux pas déplacer, ah si.
00:46:45 Voilà, là c'est mieux.
00:46:47 Bon, la page web vous montrait ça en gros.
00:46:50 Donc là, c'est la navigation dans l'arborescence qui est en haut,
00:46:53 et on arrive sur un document et ça se présente comme ça.
00:46:57 Donc ce que je vous disais, c'est que pour moi c'était plutôt clair.
00:47:01 Ça fonctionne.
00:47:03 Donc ça c'est un des modes de parcours du document,
00:47:07 et le second se présente comme ça.
00:47:12 Pareil, je zoom un petit peu.
00:47:14 Le plan de classement est ici à gauche,
00:47:19 et les documents s'affichent ici à droite.
00:47:22 Alors, ce qui nous a gênés, nous, c'est que la structure n'est pas très claire.
00:47:28 C'est-à-dire que là, vous voyez, série A, c'est sous catégorie de fond.
00:47:33 Ça n'apparaît pas franchement clairement dans l'interface.
00:47:38 Et là, il n'y a que deux niveaux, mais quand il y en a cinq ou six,
00:47:41 tout est à la suite.
00:47:43 Ce qui fait que c'est un petit peu gênant.
00:47:45 J'arrive pas à zoomer plus.
00:47:50 Notamment concernant notre inventaire à nous,
00:47:52 puisqu'il y a plein de...
00:47:54 L'arbre essence est assez développé.
00:47:57 Ce qui fait qu'à l'affichage, c'était pas satisfaisant pour nous.
00:48:00 Alors, les points positifs d'Atom,
00:48:06 c'est qu'il y a une très forte communauté d'utilisateurs.
00:48:09 La documentation est vraiment complète.
00:48:12 L'outil de recherche, je ne vous l'ai pas montré,
00:48:15 mais il fonctionne très bien, et les temps de réponse sont très bons.
00:48:19 Par contre, les points négatifs,
00:48:21 comme je vous le disais, techniquement,
00:48:23 ça a été assez complexe à installer.
00:48:25 Les mises à jour sont visiblement compliquées aussi.
00:48:29 Alors, je n'ai pas eu l'occasion d'en faire une, mais...
00:48:31 Voilà.
00:48:33 D'après ce que j'ai lu, ce n'est pas simple.
00:48:35 On n'a pas vraiment essayé de personnaliser plus que ça,
00:48:39 parce que, comme je vous l'ai montré,
00:48:41 la navigation ne correspondait pas tout à fait à ce qu'on voulait.
00:48:44 Mais ça semble difficile aussi de faire.
00:48:46 D'autres problématiques pour l'avenir,
00:48:48 c'est que l'ICA n'a pas l'air de continuer de financer le développement,
00:48:53 donc on ne sait pas trop vers quoi va évoluer le logiciel.
00:48:56 Et comme je vous l'ai montré tout à l'heure,
00:49:01 le logiciel date et est basé sur des anciennes versions de PHP, de Symfony.
00:49:06 Donc, il va falloir qu'il évolue grandement.
00:49:09 Et ça, on ne sait pas trop comment ça va se passer.
00:49:12 Ça semble difficile.
00:49:14 On ne sait pas trop comment ça va se passer.
00:49:16 Ça, c'est un détail technique,
00:49:18 mais lors de l'installation de notre inventaire,
00:49:20 on a des champs textes qui sont très très longs
00:49:24 et Atom ne supportait pas.
00:49:26 L'avantage du logiciel libre, c'est qu'on peut faire ce qu'on veut avec.
00:49:30 Donc, il a suffi de modifier deux types de champs
00:49:33 pour les rendre compatibles avec notre version, enfin notre inventaire.
00:49:36 Ça, ça fonctionne, mais c'est encore quelque chose à faire
00:49:39 qui complexifie un petit peu l'installation.
00:49:42 Enfin et surtout, l'interface de navigation dans l'arborescence ne nous convient pas.
00:49:47 Alors, on a continué de chercher et nous avons installé Max.
00:49:54 Max est un moteur d'affichage XML, TEI ou EAD,
00:50:00 qui a été développé par l'université de Caen.
00:50:03 Les sources sont disponibles dans un dépôt Git hébergé à Caen.
00:50:10 C'est un produit qui est tout récent puisque la version 1 date de avril 2022.
00:50:14 Le côté technique, on a toujours une interface de lecture,
00:50:20 évidemment le navigateur web qui permet...
00:50:23 J'ai déjà raté.
00:50:27 Qui permet de s'interfacer avec la partie back-office de Max.
00:50:38 Donc, on a toujours une base de données,
00:50:41 donc là qui est d'une base de données Basics,
00:50:44 qui est spécifique à l'XML.
00:50:46 Des fichiers XQuery et XSLT qui servent à interroger la base
00:50:54 et à mettre en forme les résultats.
00:50:56 Donc, c'est la version 9.6 de Basics, qui n'est pas la dernière.
00:51:04 La dernière étant la version 10.
00:51:07 Mais c'est quand même une version très récente.
00:51:09 Et c'est Java 8 et plus qui est utilisable dans cette version de Max.
00:51:14 La procédure d'installation est bien documentée.
00:51:18 Ça a été très simple à installer.
00:51:21 En quelques heures, c'était fait.
00:51:23 Donc, ça, c'est un des points positifs.
00:51:26 La documentation est très complète.
00:51:29 L'équipe de développeurs est petite.
00:51:33 Je ne sais pas combien ils sont.
00:51:34 Ils ne sont pas beaucoup, mais ils sont très réactifs.
00:51:36 Quand on a eu besoin d'eux, ils étaient là.
00:51:38 L'installation est très simple.
00:51:40 C'est architecturé en plugin.
00:51:43 Donc, si on a besoin d'un plugin d'affichage, d'export,
00:51:47 il suffit de les mettre.
00:51:49 Si on n'en a pas besoin, on ne les met pas.
00:51:51 Ça permet d'alléger le système.
00:51:53 C'est très bien documenté, mais je crois que j'ai déjà dit.
00:51:56 Et aussi, c'est en français.
00:51:58 C'est pas mal.
00:52:00 Donc, on a de la doc à lire.
00:52:04 Les points négatifs.
00:52:06 Comme je vous le disais, c'est très jeune.
00:52:08 Donc, la peinture est encore fraîche.
00:52:10 C'est une petite équipe derrière le projet.
00:52:12 Tout ça, c'est lié.
00:52:17 Il n'y a pas encore de communauté d'utilisateurs,
00:52:19 puisque c'est tout jeune.
00:52:21 Donc là, on a accès aux documents.
00:52:25 Donc, ça, c'est à partir de l'inventaire donné par Arsene.
00:52:28 Donc, on le met dans Max.
00:52:30 Max fait son l'intel dans Basics.
00:52:32 Et on a au final ce résultat.
00:52:34 Tout est paramétrable.
00:52:36 C'est assez bien fichu.
00:52:40 Donc, voilà typiquement le résultat d'un parcours de l'inventaire.
00:52:46 Quand il y a le document numérisé,
00:52:52 on peut, comme je vous le disais tout à l'heure avec les plugins,
00:52:55 afficher directement.
00:52:57 Ça, c'est un plugin qui s'appelle Mirador, le document.
00:53:01 Voilà.
00:53:03 On a aussi une interface de recherche sur laquelle je vais passer assez vite.
00:53:09 Parce qu'elle pose encore des problèmes.
00:53:11 Mais elle fonctionne.
00:53:13 Voilà, si je prends une entrée au hasard.
00:53:16 On peut aussi taper dans la fenêtre.
00:53:20 On peut aussi taper dans la fenêtre.
00:53:22 Oui, tout à fait.
00:53:23 Alors, les deux types de recherche ne se croisent pas.
00:53:26 Le résultat, bon là, pour l'instant,
00:53:29 on n'a pas vraiment réussi à le mettre en forme.
00:53:31 Donc, il se présente comme ça.
00:53:32 Ce n'est pas génial.
00:53:34 Donc, ça, c'est la lenteur dont je vous parlais.
00:53:37 On a un résultat, on clique et on attend.
00:53:39 Du coup, j'ai fait vite.
00:53:55 C'est bon ?
00:53:56 Oui, très bien.
00:53:58 De toute façon, oui, c'est encore un prototype.
00:54:00 On travaille encore dessus au fur et à mesure.
00:54:02 L'avantage avec Mac, c'est qu'on peut tout paramétrer.
00:54:05 On a les sources, la doc est bien faite et l'équipe est réactive.
00:54:07 Donc, on a de bons espoirs de faire quelque chose de très bien avec ça.
00:54:10 Donc, on a fait ce test.
00:54:14 On a constaté quand même des choses qui vont bien et des problèmes de lenteur.
00:54:19 Est-ce que tu penses qu'on peut échanger avec les développeurs
00:54:24 pour arriver à régler le problème ?
00:54:27 Le problème de lenteur, notamment.
00:54:29 Notamment, oui, de lenteur.
00:54:32 Oui, on n'a pas de réponse satisfaisante pour l'instant.
00:54:36 Donc, après, il faut voir.
00:54:38 Est-ce qu'on peut mettre un système de cache ?
00:54:40 Je ne sais pas encore.
00:54:41 Je n'ai pas de solution.
00:54:42 J'ai bon espoir qu'on en trouve une, mais là, actuellement, je ne sais pas.
00:54:46 Si ce n'est pas une question indiscrète,
00:54:50 l'université de Caen, ce n'est rien du tout.
00:54:54 Ce sont les gens qui sont à l'université de Caen qui font ça.
00:54:58 Et ça, je vous parle, moi, d'expérience.
00:55:00 Parce que, comme j'ai une très vieille expérience,
00:55:03 j'ai travaillé avec une foultitude de gens
00:55:05 qui ont tous changé de carrière à un moment ou à un autre.
00:55:09 Imaginons que l'université de Caen, c'est deux mètres de conférence, brillant.
00:55:14 Est-ce qu'ils vont rester à Caen longtemps ?
00:55:17 Qu'est-ce qu'ils vont faire ?
00:55:18 Est-ce qu'ils vont devenir professeurs au Collège de France, à Chicago ?
00:55:23 Ou à Paris 1 ?
00:55:25 Pour ces aspects de développement logiciel,
00:55:29 ces aspects techniques à l'université de Caen,
00:55:32 il y a une maison de la recherche des sciences humaines.
00:55:37 Il y a un gros pôle d'humanité numérique
00:55:40 qui s'appelle le pôle document numérique,
00:55:42 avec une bonne dizaine d'ingénieurs
00:55:45 qui sont assez jeunes, de ce que j'ai vu,
00:55:48 et qui sont assez efficaces, assez réactifs.
00:55:52 Je pense qu'au niveau technique,
00:55:54 même si on ne va pas forcément arriver à avoir un truc très efficace rapidement,
00:55:59 en tout cas on peut dialoguer avec eux.
00:56:02 Au niveau technique, au niveau des ingénieurs qui s'occupent de développer Max,
00:56:07 pas que pour l'EAD, mais aussi pour la TEUI,
00:56:09 pour publier des données textuelles.
00:56:13 Ils sont assez réactifs et assez jeunes pour l'instant.
00:56:16 C'est toujours pareil avec le logiciel libre.
00:56:20 C'est une équipe derrière qui est appelée à bouger potentiellement.
00:56:23 Là c'est une université, c'est vrai,
00:56:25 mais on a les sources, on a le logiciel.
00:56:28 Donc si jamais on peut toujours, nous, continuer le développement.
00:56:32 Ce n'est pas forcément dans mes compétences,
00:56:35 notamment la partie Java, mais c'est possible.
00:56:38 Contrairement à une société privée ou code source fermée
00:56:41 où on ne peut rien faire, où la société plie.
00:56:43 Si je peux me permettre,
00:56:47 c'est vrai qu'à l'université de Caen, le pôle du document numérique de la MRSH
00:56:51 est vraiment soutenu par la direction de la MRSH.
00:56:55 J'ai pu bénéficier de leurs conseils quand je travaillais là-bas.
00:56:59 Pierre-Yves Buard, qui est à la tête du pôle du document numérique,
00:57:03 qui est installé depuis plusieurs années maintenant,
00:57:05 a vraiment en plus une politique d'open access,
00:57:09 de libre, vraiment tout libre.
00:57:13 Et par ailleurs, après, on n'a pas le temps d'en parler là,
00:57:17 mais ils ont participé à énormément de projets
00:57:21 en lien vraiment direct avec les chercheurs.
00:57:24 Et donc on a toute une page sur le site de la MRSH de Caen,
00:57:30 sur tous les projets qui ont été faits par le pôle.
00:57:33 Donc ils traitent à la fois de SIG, d'édition,
00:57:37 tout ce qui est le projet d'ANR de Grigory Grumbaber
00:57:43 sur l'édition des actes des évêques de France,
00:57:48 est porté par la MRSH, en fait, derrière.
00:57:52 Donc ils ont en plus une expérience en termes de TUI, d'édition,
00:57:56 qui est très poussée.
00:58:00 Et par ailleurs, effectivement, ils sont soutenus par la direction de la MRSH.
00:58:04 Donc on peut quand même espérer.
00:58:06 Et puis ils essayent de pérenniser leur équipe,
00:58:10 qui est quand même assez conséquente.
00:58:13 Donc effectivement, moi, il me semble que de ce point de vue-là,
00:58:16 travailler avec eux, c'est que du bonheur.
00:58:20 Parce qu'en plus, ils ont la maîtrise des développements logiciels par la suite.
00:58:26 C'est surtout ça qui leur tient à cœur.
00:58:28 Tout à fait, oui. Ils développent beaucoup de projets.
00:58:31 Parmi les projets sur lesquels Can travaille,
00:58:35 dans beaucoup d'entre eux, il y a une dimension de publication,
00:58:39 une grosse dimension technique de logiciels, de diffusion,
00:58:43 qui est soutenue en tout cas, qui est suivie à Can.
00:58:47 J'ai une question.
00:58:50 Tout d'un coup, la TUI me fait penser que peut-être que le modèle TUI...
00:58:56 Oui, je sais, mais peut-être que le modèle TUI
00:58:59 a pu fournir des balises pour tous ces champs, justement,
00:59:03 d'épouillement très fin qui n'existent pas en EAD.
00:59:08 Est-ce que ça a été regardé à un moment où en fait,
00:59:10 non, on ne s'est jamais posé la question ?
00:59:12 Oui, mais pour...
00:59:14 Pour le projet écru, justement, on y reviendra un peu plus tard.
00:59:18 On utilise la TUI et vraiment, je pense que ce n'est pas compatible
00:59:23 avec la DTD-EAD.
00:59:27 Au contraire, tu vas faire une migration qui va appauvrir tes données.
00:59:32 Est-ce que c'est possible, en général, pour réutiliser
00:59:35 justement des descriptions dans le modèle de données,
00:59:39 des non-balises, des choses comme ça,
00:59:41 pour pouvoir les rebrouter à la route ?
00:59:44 De base, étant donné que la TUI sert à décrire des données textuelles
00:59:49 et pas forcément archivistiques, pas forcément des objets, des pièces,
00:59:54 ça ne me dit rien comme ça, je ne suis pas vraiment pas sûr.
00:59:57 En plus, on sort quand même d'une journée d'études Biblicima
01:00:01 qui a montré qu'à la limite, chaque texte imposait son propre modèle de données en TUI.
01:00:06 Alors que d'une certaine manière, il y a quand même beaucoup plus de...
01:00:11 Ce sont des applications dédiées à la DTD-EAD, enfin à l'XMLEAD,
01:00:16 et qui permettent de conserver surtout le niveau, le contexte archivistique.
01:00:22 Voilà, je pense que là, c'est ça qu'il faut qu'on approfondisse.
01:00:27 Donc encore une fois, c'est un produit, si je peux dire, transitoire,
01:00:33 qui a vocation à nous permettre de nous former aussi
01:00:39 sur une plateforme de diffusion XML propre,
01:00:43 mais qui n'aura plus lieu d'exister une fois que le portail web en graphes existera.
01:00:49 Donc on ne voulait pas non plus trop investir de temps.
01:00:54 [Musique entraînante diminuant jusqu'au silence]