PARTIES

Intro

Gallica représente toute la diversité des collections patrimoniales de la BnF et de ses 260 partenaires : 10 millions de documents, livres, journaux et revues, mais aussi manuscrits, cartes et plans, estampes, photographies, partitions, vidéos, enregistrements sonores et objets, sont consultables librement et gratuitement, sur le web. Gallica offre des fonctionnalités permettant de découvrir en détail les collections, comme des globes anciens – dont certains sont numérisés en 3D, des manuscrits médiévaux, des costumes ou des estampes, rarement sortis des réserves. Des milliers de titres de presse ancienne, libres de droit, souvent fragiles également, sont aussi facilement consultables. Chaque jour, ce sont des centaines de documents qui intègrent la bibliothèque numérique.

Politique documentaire de numérisation 

Initiée en 1992, la numérisation des collections de la Bibliothèque nationale de France a suivi une politique documentaire naturellement liée aux collections, aux besoins des internautes et des lecteurs mais aussi, nécessairement, à l’évolution des technologies. Ainsi, après avoir entrepris de reconstituer ce que pouvait être la "bibliothèque de l’honnête homme" au tournant du millénaire, la BnF a pu envisager, pas à pas, le traitement de collections parfois très délicates à numériser. La presse, tout d’abord, à partir de 2009 avec dix titres emblématiques de la presse quotidienne nationale, puis les collections spécialisées qui, du manuscrits aux objets comme les monnaies, présentent une diversité telle que la politique documentaire peut être résumée en ces deux grands axes : offrir un ensemble documentaire basé sur les valeurs humanistes et sur la richesse muséale des collections conservées par l’établissement. De grands programmes comme le traitement des auteurs classiques dans l’exhaustivité de leur œuvre se sont également complétés du traitement au fil des l’eau des documents les plus demandés par les lecteurs, preuve de leur intérêt profond. Toutes les créations conservées à la BnF, de toutes époques, sont quotidiennement traités et l’évolution des méthodes de numérisation laisse ambitionner de nouveaux apports en ce qui concerne les ouvrages les plus délicats à numériser, les plus fragiles notamment.

La politique documentaire de numérisation a également un volet partenarial, guidé par un objectif de complémentarité optimale entre la numérisation des collections de la BnF et celles des partenaires, et par un objectif de représentativité des grands domaines du savoir. Depuis les années 2000, la coopération numérique de BnF s’organise autour de programmes structurants au niveau national. Premier du genre, le programme de numérisation et valorisation concertées en sciences juridiques (2008) a été suivi par des programmes consacrés à l’histoire de l’art, à la littérature pour la jeunesse, au patrimoine équestre et plus récemment par le programme de numérisation et valorisation concertées en histoire du sport.

Recherche et développement sur la collection 

Au-delà du téléchargement unitaire, la réutilisation de corpus documentaires est rendue possible par les API Gallica (Application Programming Interface, interface de programmation applicative). Le portail BnF API et jeux de données décrit et documente l’ensemble de ces API, qui permettent d’interroger et de récupérer les métadonnées des catalogues et les collections numérisées de la BnF (notamment BnF catalogue général, data.bnf.fr, Gallica). Pour faciliter l’accès aux données et leur utilisation, des jeux de données préparés (images et textes, métadonnées, statistiques…) sont aussi téléchargeables via le portail.  En savoir plus sur les API

BnF DataLab 

Le BnF DataLab est un service à destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF, et notamment la collection numérisée Gallica. Ces collections constituent un formidable réservoir de données qu’il est parfois difficile d’appréhender. Afin d’accompagner les chercheurs dans leur exploration de ces gisements, une convention de partenariat a été signée avec la très grande infrastructure de recherche (TGIR) Huma-Num. Il s’agit de mettre en commun et de partager les compétences et savoir-faire des équipes de recherche (ingénieurs et chercheurs permanents d’Huma-Num, chercheurs invités, personnels de la BnF…) pour proposer aux chercheurs travaillant sur les collections numériques, des outils, des environnements, des accompagnements adaptés aux différentes étapes de leurs projets numériques (constitution de corpus, traitements et analyses, valorisation, préservation des données…). Le BnF DataLab est implanté en salle X, en bibliothèque de recherche.  En savoir plus sur le DataLab

Intelligence artificielle

La BnF est engagée depuis plusieurs décennies dans l’informatisation et la dématérialisation d’une partie de ses collections et services. A ce titre, elle est impliquée dans de nombreux projets utilisant des technologies d’intelligence artificielle (IA) et fait évolue sa politique scientifique pour pleinement les y intégrer. S’il a déjà été entamé dans certains secteurs de la Bibliothèque (par exemple l’OCR appliqué aux documents imprimés de Gallica), le déploiement progressif de l’IA dans ses différents champs d’activité implique pour les années à venir une évolution des tâches et des métiers, que la Feuille de route IA de la BnF a formalisé et que la Cellule IA de la BnF a la charge de réaliser.   En savoir plus sur l’IA à la BnF

Gallica Images 

Gallica Images est un projet innovant qui utilise des technologies de pointe pour récupérer et indexer les images présentes dans les fonds de Gallica et de la BnF afin de les rendre accessibles au public. Un nombre important de documents numérisés dans Gallica sont porteurs d’estampes, de gravures et de photographies. Ces images sont des témoignages de notre histoire, dans la plupart des cas, libres de droits et réutilisables. Pour traiter plus d’1,4 million de vues, l’équipe de Gallica a développé un outil d’intelligence artificielle utilisant, entre autres, des traitements de segmentation et d’indexation automatique. Ces modèles ont été entraînés et testés sur plusieurs jeux de données pour construire un socle technologique pointu. Avec cet outil, vous serez bientôt en mesure de découvrir nos fonds et de faire des recherches avancées.  Ce projet est réalisé en collaboration avec l’INHA et la BNUS. Ce programme est soutenu par l’État dans le cadre du dispositif "Numérisation du patrimoine et de l’architecture" de la filière des industries créatives (ICC) de France 2030, opéré par la Caisse des dépôts.