This is an old revision of the document!
Extraction automatique d'illustrations à partir de livres anciens
Description et objectifs du projet
Le Bodmer Lab de l'Université de Genève vient d'achever la numérisation d'une importante collection de livres de voyage de la Renaissance, publiés aux XVIe-XVIIe siècles et richement illustrés par des gravures et de cartes. A cet ensemble s'ajoutent plus de 200 éditions du Faust de Goethe, souvent illustrées. Ces deux sets de données sont mis à disposition des participants de Geneva Open Libraries (#GEOPENGLAM) pendant le #OGH17, et en anticipant leur publication sur le site du Bodmer Lab, attendue au printemps 2018.
Ce projet #GEOPENGLAM se propose d'identifier et d'extraire automatiquement les illustrations des ces quelque 50'000 pages. Un processus d'indexation et de “tagging” est par la suite envisagé. Au-delà de ce processus d'analyse quantitative des données, notre ambition est de créer une interface pouvant répertorier les illustrations et permettre aux chercheurs, par la suite de faire des classements et des analyses qualitatives (quelles gravures sont répétées dans plusieurs volumes, quelles similitudes peut-on déceler à travers la collection, etc).
Team
BodmerLab (UNIGE) | EPITECH Lyon | CERN | CUI (UNIGE) |
---|---|---|---|
Pierre-Yves Burgi pierre-yves.burgi@unige.ch | Etienne Pasteur etienne.pasteur@epitech.eu | Carmen Cadenas | Saba Kvesitadze |
Radu Suciu radu.suciu@unige.ch | Alexandre alexandre@szymocha.com | ||
Dimitri Mas dimitri.mas@epitech.eu |
Ce projet fait partie du Geneva Open Libraries Hackathon.
Déroulement du projet
Vendredi après-midi: Après la sélection du set de données (un ensemble d'ouvrages de voyage de la Renaissance, le “cluster” De Bry du Bodmer Lab http://bodmerlab.unige.ch/recherche/theodore-de-bry/), une première séance de travail a été consacrée à la conception de l'algorithme d'extraction des illustrations. A minuit une première version fonctionnelle était déjà disponible.
Samedi: Le système est encore affiné, afin qu'il puisse reconnaître davantage d'illustrations, notamment les lettrines. L'interface de présentation de la démo est achevée pendant la soirée. Production d'un poster de présentation des objectifs du projet et des résultats.
Dimanche: Présentation du prototype lors de la séance de plénière au Campus Biotech.
Prototpye
Le prototype est disponible sur GitHubhttps://github.com/EtiennePasteur/Lettrine
Poster
Cliquez ici pour télécharger la version pdf du poster. Version web ci-dessous.