Utilisation d’indices sémantiques pour la restructuration
Dans le cadre de ce sous-projet, le Cléo s’est proposé de fournir les articles de certaines revues qui, dans leur histoire, ne disposent que de fichiers ou de fac-similés au format PDF. Afin de rendre ces articles accessibles à la communauté des chercheurs en SHS, il est envisagé de récupérer la structure des articles pour réaliser un sommaire et extraire les références bibliographiques quand elles existent. Une liste de revues accessibles par dépôt OAI-PMH et présentant de nombreuses particularités (scans de revue, impression d’écran, etc.) a été fournie pour la société Demain Un Autre Jour.
À la suite de cette fourniture, les équipes de DUAJ ont extrait un corpus de travail qui leur a permis d’appréhender la diversité des documents et de paramétrer ses algorithmes d’extraction et les mettre en phase avec la norme métier. Le corpus a également permis de valider que les éléments clés (bibliographie et références) étaient bien isolés lors de l’extraction. Le démonstrateur mis à disposition des équipes du Cléo permet un premier niveau de validation de la chaîne de traitement unitaire.
|
|