Utilisation d’indices sémantiques pour la restructuration
Dans le cadre de l’extraction des notes de bas de page, l’accent principal a été mis sur la détection au plus fin de tous les éléments de décoration des pages. Il s’agit des rappels de titres, folios de pages, dates, copyright, etc… dont la détection permet de les ignorer. Et par voie de conséquence améliore la fiabilité de la détection des notes de bas de page.
Cette détection est opérée par un mixte entre des données sémantiques (détection d’une liste de mots clés) dont la présence dans des zones de « bord de page » permet d’identifier la présence d’objet de décoration. Ce premier niveau de détection est aussi complété par des données plus liées à la géométrie de la construction des pages : tailles des blocs, tailles relatives des polices et critères de répétions sur l’ensemble des pages du document. Il s’agit d’un mixte entre des critères de signature et des critères sémantiques. Les notes de bas de pages ainsi extraites permettent à BILBO de se focaliser sur celles-ci pour la recherche des références croisées et de ne pas lancer une analyse sémantique fine sur un trop grand nombre de données.
La détection des notes de bas de pages a également été enrichie de liens permettant de retrouver dans le renvoi vers la note de bas de page. Cette détection est rendue possible par la recherche sur les notes de bas de page de « pointeurs »,et la recherche dans le texte de la page elle-même des renvois vers ce « pointeur ». |
|