Gestion de la diversité des mises en pages
La structure des documents
Nous avons beaucoup travaillé sur l’amélioration des algorithmes de détection des sommaires. L’objet principal était de pouvoir extraire une structure de navigation exploitable dans un format epub et aussi d’être en mesure d’extraire les tables d’illustrations et les tableaux dans les documents.
En plus des documents mis à disposition dans le cadre du projet, nous avons également testé et éprouvé nos algorithmes sur une collection d’ouvrages liés au domaine de la formation.
Le premier axe de travail s’est intéressé à la détection exhaustive de tous les titres d’un document, puis de leur hiérarchisation. Pour y parvenir, nous avons combiné des éléments de signature (nombre de mots et de ligne, taille relative des polices de caractères, justification des blocs) avec des éléments de fréquence d’apparition et de répétition des blocs de signatures similaires. Nous avons également introduit des détections des paramètres de numérotation et d’indentation des zones de textes.
Les sommaires ainsi extraits ont été confrontés à la zone de sommaire du document quand elle était présente. Parfois, le sommaire extrait s’avérait d’un niveau plus fin que celui du sommaire du document. Mais cette comparaison nous a permis de régler avec fiabilité et régularité la constitution d’un sommaire.
Les sommaires permettent également d’isoler le chapitre qui ne serait constitué que de références bibliographiques. L’algorithme BILBO, de même que pour les notes de bas de pages, peut alors exploiter avec fiabilité ces références.
Les tableaux
La détection des tableaux a fait l’objet d’une attention très importante. Nous avons repris des portions d’algorithmes pour améliorer et fiabiliser l’extraction des cellules fusionnées. Nous avons également travaillé sur l’extraction de contenus de type « images » ou « illustrations » dans les tableaux.
Dès lors que le tableau est constitué de bordures sur toutes les cellules, nos algorithmes ont aujourd’hui atteint un niveau de fiabilité proche de 99 %. Il subsiste des cas d’erreur dès lors que plusieurs éléments graphiques (dont des lignes) sont présents à l’intérieur de cellules du tableau.
Enfin, nous nous sommes également attaqués à la détection de tableaux pour lesquels les cellules ne sont pas toutes matérialisées par des lignes. Les algorithmes deviennent vite coûteux et de nombreuses ambigüités doivent alors être traitées. En particulier le mélange entre les colonnes de texte et les colonnes des tableaux…
Actuellement, et dès lors que certaines cellules du tableau sont matérialisées par des lignes, nous obtenons un bon niveau de détection des cellules simples ; la fusion des cellules est quant à elle beaucoup plus délicate à détecter et reste encore à fiabiliser.
Pour les tableaux qui n’ont aucune ligne nous indiquant la présence possible d’un élément de type tableau, nous sommes en mesure de les détecter par analyse des positions relatives des différents blocs de texte. En nous inspirant de travaux réalisés par un étudiant de l’université de Tampere en Finlande, nous avons en effet pu reconstituer les principales caractéristiques de signature d’un tableau. Mais là encore, la fusion des cellules n’est pratiquement pas détectable.
La validation des contenus
Indépendamment du format TEI, nous avons le souci de qualifier les contenus extraits. La première version de notre interface, était plutôt dans l’esprit d’un démonstrateur : elle permettait de comprendre les différentes étapes effectuées par notre algorithme ; en revanche, ce démonstrateur donnait très peu de visibilité sur l’ensemble du contenu extrait notamment quand les documents possédaient un grand nombre de pages.
Nous avons donc amélioré cette interface qui a permis de visualiser plus vite certains défauts d’extraction.
Cette nouvelle version de l’interface permet de valider la qualité de la structuration du document, les notes de pages avec les renvois, mais également les images et les tableaux.
Cette interface est présentée en détail dans le document « INT-DOC-SP4 Algorithmes d'extraction », au chapitre « Interface de visualisation ».