Activité de la 1ère année (2013)

Analyse et reconstitution de bibliographies


Depuis 2011, dans le cadre d’un Google Grant for Digital Humanities, le Cléo et le LSIS travaillent sur un logiciel capable d’annoter et étiqueter les élements composant une référence biblographique.


Bilbo - Bibliographical Robot est un logiciel d’annotation automatique des références bibliographiques écrit en langage Python. Cet algorithme permet d’analyser, d’étiqueter et de structurer des références bibliographiques quelques soient leurs styles, explicites ou implicites, et quelques soient la langue, dans la documentation scientifique numérique. L’algorithme de Bilbo repose sur le modèle CRM (Conditional Random Fields) implémenté dans l’environnement Wapiti (LIMSI, CNRS) pour apprendre à étiqueter des références bibliographiques à partir d’exemples annotés. Dans un second temps, il est possible d’interroger un Web Service (CrossRef) afin de récupérer le DOI (Digital Object Identifier) de la référence, quand celui-ci existe. Cette interrogation se fait de manière asynchrone.


Dans le cadre du projet Inter-Textes, le logiciel est amélioré afin d’annoter des références se trouvant dans différents contenus numériques comme les billets de blogs ou les flux RSS. Dans ce sens, Qwam Content Intelligent et Demain Un Autre Jour vont créer des bases d’apprentissage pour améliorer l’outil. La langue sera prise en compte dans cette amélioration par la numérisation d’un corpus d’ouvrages en langue étrangère et qui présente une plus grande diversité de contenus.


Enfin, dans le cadre du sous-projet n°4, le logiciel Bilbo pourrait être utilisé pour améliorer la détection des structures d’un article, notamment la zone bibliographique dans un document.


Pour faciliter les tests, le Cléo a mis en place une interface de démonstration de l’outil d’annotation (http://bilbo.openeditionlab.org/). Deux niveaux d’annotation sont proposés pour les partenaires, d’une part l’annotation de références structurées dans une bibliographie (corpus 1), d’autre part l’annotation de références structurée dans du texte (corpus 2). Deux jeux de données test sont proposées. Il est aussi possible de rechercher les DOI des références en passant par le service de CrossRef.
Sous-pages (1) : Livrables
Comments