Extraction automatique d'illustrations à partir de livres anciens

Description et objectifs du projet

Le Bodmer Lab de l'Université de Genève vient d'achever la numérisation d'une importante collection de livres de voyage de la Renaissance, publiés aux XVIe-XVIIe siècles et richement illustrés par des gravures et de cartes. A cet ensemble s'ajoutent plus de 200 éditions du Faust de Goethe, souvent illustrées. Ces deux sets de données sont mis à disposition des participants de Geneva Open Libraries (#GEOPENGLAM) pendant le #OGH17, et en anticipant leur publication sur le site du Bodmer Lab, attendue au printemps 2018.

Ce projet #GEOPENGLAM se propose d'identifier et d'extraire automatiquement les illustrations des ces quelque 50'000 pages. Un processus d'indexation et de “tagging” est par la suite envisagé. Au-delà de ce processus d'analyse quantitative des données, notre ambition est de créer une interface pouvant répertorier les illustrations et permettre aux chercheurs, par la suite de faire des classements et des analyses qualitatives (quelles gravures sont répétées dans plusieurs volumes, quelles similitudes peut-on déceler à travers la collection, etc).

Prototype

Le prototype est disponible sur GitHubhttps://github.com/EtiennePasteur/Lettrine

Documentation

Team

BodmerLab (UNIGE) EPITECH Lyon CERN CUI (UNIGE)
Pierre-Yves Burgi pierre-yves.burgi@unige.ch Etienne Pasteur etienne.pasteur@epitech.eu Carmen Cadenas Saba Kvesitadze
Radu Suciu radu.suciu@unige.ch Alexandre alexandre@szymocha.com
Dimitri Mas dimitri.mas@epitech.eu

Ce projet fait partie du Geneva Open Libraries Hackathon.

Déroulement du projet

Vendredi après-midi: Après la sélection du set de données (un ensemble d'ouvrages de voyage de la Renaissance, le “cluster” De Bry du Bodmer Lab http://bodmerlab.unige.ch/recherche/theodore-de-bry/), une première séance de travail a été consacrée à la conception de l'algorithme d'extraction des illustrations. A minuit une première version fonctionnelle était déjà disponible.

Samedi: Le système est encore affiné, afin qu'il puisse reconnaître davantage d'illustrations, notamment les lettrines. L'interface de présentation de la démo est achevée pendant la soirée. Production d'un poster de présentation des objectifs du projet et des résultats.

Dimanche: Présentation du prototype lors de la séance de plénière au Campus Biotech.

img_20170513_143744.jpgimg_20170513_111416.jpgimg_20170513_135810.jpg

Poster