Activité de la 2ème année (2014)

Analyse et reconstitution de bibliographies

Implémentation du logiciel Bilbo sur la plateforme Revues.org


Début mars 2014, OpenEdition a déployé sur la plateforme Revues.org son outil d’annotation automatique des références bibliographiques, Bilbo. Ce logiciel est implémenté sur près de 80% des revues de la plateforme Revues.org et ne concerne que les références structurées en tant que bibliographie dans les articles. Il étiquette les références et extrait le premier auteur et le titre pour pouvoir interroger les bases de données de CrossRef, agence officielle d’enregistrement des DOI (Digital Object Identifier) pour les publications scientifiques. Bilbo peut ainsi récupérer le DOI quand il existe, et l’ajouter à la référence dans la bibliographie de l’article. Cet ajout se fait sous la forme d’un lien cliquable qui permet alors d’accéder directement à la ressource citée. Enfin, le travail d’annotation, d’interrogation de l’API de CrossRef et l’ajout des DOI dans les articles se fait toutes les 24 heures à compter du chargement de l’article dans Lodel.


Grâce à cet enrichissement, nous pouvons afficher les DOI des références annotées par Bilbo dans les articles. Nous avons mis à disposition de nos lecteurs, la possibilité de télécharger les références bibliographiques des ressources citées dans les formats APA, MLA ou Chicago.

Bilbo a détecté 1 042 780 références sur la plateforme Revues.org, dont 9.83% ont un DOI. Même si l’usage des DOI tend à se généraliser, il n’est pas encore très répandu en sciences humaines et sociales et dans la recherche non-anglophone.

Amélioration du logiciel Bilbo


Des améliorations ont été apportées au logiciel suite à différentes anomalies détectées pendant les phases de test, comme par exemple le mauvais découpage des mots entraînant des erreurs dans l’annotation et l’évaluation du logiciel. Il a été également mis en place un système d’évaluation automatique pour évaluer les résultats et les performances de Bilbo.


Actuellement, le logiciel permet d’identifier et d’étiqueter des références structurées dans la bibliographie ou dans les notes de bas de page des articles scientifiques sur Revues.org. Nous allons travailler sur l’identification et l’annotation des références implicites, c’est-à-dire des références citées dans le corps du texte mais non structurées, en utilisant des logiciels de détection et d’extraction des entités nommées. Il s’agit d’extraire dans un texte, les prénoms et les noms des auteurs et, s’il existe une référence bibliographique à ce point précis du texte, de l’extraire pour l’annoter automatiquement.

Articles de presse liés


Dans l’activité presse de Qwam existe une forte demande de listage des articles liés pour un article donné. En effet, sur tous les sites web figure le lien “articles liés” et la génération d’une telle liste s’effectue de manière plus ou moins empirique, voire manuelle. L’automatisation d’une telle tâche capable de fournir des résultats équivalents, représenterait une forte valeur ajoutée avec un ROI directement mesurable.

Le projet “Intertextes” ayant pour vocation de générer des liens entre documents, Qwam s’est efforcé de générer des liens suivant 2 méthodes:

Par ré-exploitation des annotations générées par la détection d’événements traités dans le “SP 3.3 - Génération et enrichissement de métadonnées”

Par l’utilisation de la fonctionnalité “More like this” de SOLR.

Les résultats de ces 2 méthodes sont comparés dans le livrable ci-dessous. Un démonstrateur de presse, montrant cette fonctionnalité de génération de liens a été implémentée par Qwam.
Sous-pages (1) : Livrables
Comments