Gestion de la diversité des mises en page Dans le cadre de cette sous-tâche, DUAJ a exploité les documents au format PDF fournis par le Cléo pour extraire et caractériser la signature des familles de documents. Il s’agit à la fois d’éléments de mise en forme et de formats ou encore des règles d’enchaînements des portions logiques du document.
Une analyse particulière dans les algorithmes a été mise en place afin de détecter le plan du document pour en déterminer avec fiabilité la structure. Cette analyse est basée sur une extraction statistique des variations de justification et de styles (police de caractères, taille, graisse).
Nous avons également introduit un algorithme de reconnaissance des notes de bas et de haut de page. Le focus a été mis sur cet algorithme car celui-ci peut : Ignorer les répétitions qui peuvent se trouver dans ces zones de document et qui ne doivent pas être extraites ; Se focaliser sur ce qui n’est pas répétitif et qui donc contient potentiellement des références bibliographiques.
Un premier démonstrateur laisse entrevoir des résultats très corrects. Il reste à retravailler sur le corpus issu de l’OCR pour améliorer la qualité des extractions de portions de texte en général, ou au moins émettre une alerte sur la qualité éventuellement suspecte du document.
Les algorithmes d’extraction doivent maintenant se spécialiser pour reconnaître de manière syntaxique des références bibliographiques et donc mettre en valeur cette zone qui sera validée ou non comme contenant des références bibliographiques par BILBO. Ces zones peuvent être des bas de pages comme des “chapitres” à part entière dans un document. La gestion des tableaux et autres “infographies” doit encore être intégrée dans les algorithmes. Pour ces éléments de contenus faisant partie d’un tout homogène, une image de l’ensemble sera automatiquement générée. Il convient pour ce faire de détecter automatiquement les éléments de signature des tableaux et infographies. |
|