Tâche 4.2 : Gestion de la diversité des mises en pages


Description de la tâche :

Il s’agit là d’analyser et de restructurer des documents dont le formatage sera différent de celui des publications de type « presse », déjà traitées par la plate-forme Cornelius. Ainsi, la tâche 4.2 vise à déterminer les caractéristiques macroscopiques des différents formats de publication de façon à disposer de « signatures » caractérisant le formatage des documents à traiter (publications scientifiques avec ou sans multi-colonnage, ouvrages, rapports de différents organismes publics, synthèses bibliographiques…).

Ce travail de caractérisation sera couplé à une modélisation, pour chaque signature, des règles de parcours de lecture d’un œil humain, étant entendu que chaque règle de parcours générera un algorithme de traitement adapté à la restructuration de contenus obéissant au type de formatage identifié.

Il sera alors possible d’identifier la structure logique des documents PDF, quels que soient leur mise en forme graphique et les styles utilisés, puis de recréer les liens logiques entre les différentes entités (regrouper les paragraphes contigus, réassocier les paragraphes et colonnes aux sections, relier légendes et images ou encore encarts et articles, etc.).

À noter, en matière de gestion des risques : en parallèle du projet INTER-TEXTES, Demain Un Autre Jour développera des interfaces graphiques avancées pour valider ou infléchir les reconstitutions automatiques de documents, puis pour enrichir les documents en résultant. Or ces interfaces pourront servir de solutions de compensation, dans la mesure où elles permettront de corriger certaines restructurations ou de terminer la transformation au format XML de documents PDF particulièrement complexes.