Tâche 4.1 : Utilisation d’indices sémantiques pour la restructuration


Description de la tâche :

Demain Un Autre Jour dispose déjà d’algorithmes visant à reproduire le parcours de lecture d’un œil humain confronté à des publications de type presse (magazines, journaux…). Ces algorithmes prennent en compte et exploitent les logiques de titrailles, de colonnages multiples, d’encadrés, d’interviews, etc. Plus précisément, ils font appel à la typographie (repérer les polices majoritaires généralement utilisées pour le corps de texte, identifier les éléments de continuité entre les lignes tels que la nature de la police, sa couleur, sa graisse, sa taille ou l’espace interligne), à l’empreinte géographique des articles (connaissance de la position des mots, des lignes et des blocs de textes) ou à des notions de parcours de lecture (par exemple pour associer la titraille aux articles proprement dits).

Cependant, ces algorithmes gagneraient à exploiter, en complément, des indices sémantiques susceptibles d’aider à lever des ambigüités quant à la continuité des contenus. À titre d’exemple, lorsqu’un contenu est constitué de plusieurs colonnes, le lien logique et ordonné d’une colonne à une autre peut s’avérer incertain ou inexact s’il n’est déterminé qu’en fonction d’un parcours probable de lecture géographique, en particulier si le lien se fait entre deux pages.

Une analyse du sens s’appuyant sur des extracteurs sémantiques nous permettra de fiabiliser le « linking » pour produire, en sortie, un contenu restructuré d’une qualité plus homogène.


N.B. : pour pallier certaines difficultés, le LSIS et Demain Un Autre Jour pourront faire appel à l’équipe IMAGINE1 du LIRIS (Laboratoire d’InfoRmatique en Image et Systèmes d’informa­tion), qui travaille sur le traitement des documents à partir de leurs aspects graphiques (segmentation image/texte, extraction de régions d’intérêt identifiées à partir de descripteurs de bas niveau, de descripteurs topologiques et structurels ou de descripteurs par région d’intérêt, etc.).