La structure des documents
DUAJ a introduit dans ses algorithmes une détection du plan des documents en analysant finement les signatures des sections de type sommaire. Cette nouvelle boucle nous permet d’améliorer considérablement la fiabilité dans la détection des zones de titres des documents. D’autre part, nous exploitons aussi cette information de structure pour mieux hiérarchiser les différents niveaux de titres dans le document.
Dans les documents fournis par le CLEO, ce sont surtout ceux du type « thèses » qui bénéficient le plus de cette amélioration. En effet, les documents issus d’articles scientifiques ne possèdent pas systématiquement de section de type sommaire facilement isolable.
Les tableaux
La détection des tableaux a fait l’objet d’un premier algorithme dont le principal but était la reconnaissance d’une telle structure au sein d’un document PDF sachant que la structure même du PDF ne retient qu’un ensemble de lignes et de morceaux de texte.
Cette détection réalisée, une image de la zone du tableau est extraite (tel qu’il apparait dans le PDF) et une simple extraction du contenu est faite. Nous en sommes donc à reproduire les cellules des tableaux simples (sans fusions multiples de lignes et colonnes) ; et en produire un export dans format XML.
Nous continuons de travailler pour mieux appréhender les tableaux plus complexes :
· A extraire des contenus sur des tableaux un peu plus complexes (fusion de cellules)
· A extraire le texte mais aussi les images qui peuvent être contenus dans les cellules.
La validation des contenus
Indépendamment du format TEI, nous avons le souci de qualifier les contenus extraits. La première version de notre interface, était plutôt dans l’esprit d’un démonstrateur : elle permettait de comprendre les différentes étapes effectuées par notre algorithme ; en revanche, ce démonstrateur donnait très peu de visibilité sur l’ensemble du contenu extrait notamment quand les documents possédaient un grand nombre de pages.
Nous avons donc amélioré cette interface qui a permis de visualiser plus vite certains défauts d’extraction.
La répétition des lignes
Nous avions mis en place des traitements permettant de reconnaitre les répétitions sur les documents : cette technique nous permet d’identifier les zones telles que « entêtes » et « pied de pages » et de les ôter de l’extraction finale pour ne pas en parasiter le résultat.
Ces algorithmes demeurent un peu coûteux en temps d’exécution sur des documents contenant de nombreuses pages, aussi nous travaillons à leur optimisation tout en conservant le même niveau de qualité.
Les références bibliographies
Aujourd’hui les zones des notes de bas de pages sont extraites par le logiciel ainsi que les renvois (portion de texte faisant référence à cette note). Le lien entre un renvoi et la note est reconstruit dans l’extraction.
L’ensemble des notes de bas de pages extraites doivent être envoyées à BILBO qui possède plusieurs niveaux de traitement dont le plus précis est aussi celui qui est le plus coûteux en temps. Il semble donc difficile d’envoyer la totalité du document
Comme nous identifions, les zones candidates aux notes de bas de pagesnous n’envoyons que celles-ci à Bilbo, qui est en mesure d’extraire de manière précise les références bibliographiques.
Toutefois il arrive qu’un chapitre entier soit consacré aux références bibliographiques. La meilleure analyse du plan des documents offerte par le nouvel algorithme d’extraction des sommaires permettra d’identifier cette section du document et l’envoyer uniquement à Bilbo qui sera de nouveau en mesure d’opérer le traitement le plus fin.